Comparatif Llama 3.1 vs ChatGPT 4o : Meta enfin à la hauteur ?

Meta a récemment dévoilé son modèle phare, Llama 3.1 405B, avec des affirmations audacieuses concernant ses performances par rapport au modèle GPT-4o d'OpenAI.

Llama 3.1 se distingue par sa capacité à traiter une vaste fenêtre de contexte de 128 000 tokens, offrant potentiellement des avantages significatifs en termes de traitement et de compréhension de grandes quantités de données.

Pour évaluer ces affirmations, nous avons mis les deux modèles à l'épreuve sur une série de tests de raisonnement, de codage et de rappel de mémoire.

Plongeons-nous dans cette comparaison détaillée pour voir comment ils se mesurent l'un à l'autre.

Présentation des deux modèles

- Llama 3.1

Llama 3.1 405B, le tout dernier modèle de Meta, est conçu pour être un poids lourd dans le domaine de l'IA.

Avec 405 milliards de paramètres, ce modèle est doté d'une capacité de traitement exceptionnelle, notamment grâce à sa grande fenêtre de contexte de 128 000 tokens.

Meta promet que Llama 3.1 excelle dans les tâches de raisonnement complexe, de suivi des instructions et de manipulation de vastes ensembles de données.

Ce modèle est spécifiquement optimisé pour offrir des réponses précises et cohérentes, même sur des séquences de texte très longues.

- ChatGPT 4o

ChatGPT 4o, développé par OpenAI, est une version avancée de la célèbre série GPT.

Connu pour ses capacités de génération de texte de haute qualité et sa robustesse dans le traitement du langage naturel, ChatGPT 4o continue de bâtir sur les succès de ses prédécesseurs.

Avec une architecture sophistiquée, il est conçu pour offrir des performances exceptionnelles en matière de compréhension contextuelle, de génération créative et de suivi des instructions.

ChatGPT 4o est largement utilisé pour une variété d'applications, allant des assistants virtuels aux outils de création de contenu.

Comparatif Llama 3.1 VS ChatGPT 4o

Premier comparatif : Trouver le plus grand nombre

Pour ce premier test, nous avons demandé aux modèles Llama 3.1 405B de Meta et GPT-4o d'OpenAI de déterminer lequel des deux nombres suivants est le plus grand : 9,11 ou 9,9.

ChatGPT 4o a correctement identifié que 9,9 est plus grand que 9,11, expliquant que le premier chiffre après la virgule (9) dans 9,9 est supérieur à celui de 9,11 (1).

Afin de confirmer cette précision, nous avons répété le test deux fois, et ChatGPT 4o a donné la bonne réponse à chaque fois.

En revanche, Llama 3.1 405B a échoué à cette tâche. En exécutant le test deux fois sur HuggingChat, Llama 3.1 a fourni une réponse incorrecte à chaque tentative.

Pour vérifier davantage, nous avons utilisé fireworks.ai pour exécuter le même test sur Llama 3.1 405B.

La première exécution a produit la bonne réponse, mais une seconde tentative a de nouveau abouti à une erreur. Sur un total de cinq exécutions, Llama 3.1 405B n'a donné la bonne réponse qu'une seule fois, indiquant une incohérence notable dans son traitement des questions de raisonnement de bon sens.

Prompt : Lequel est le plus grand ? 9,11 ou 9,9 ?

Gagnant : ChatGPT 4o

Second comparatif : Temps de séchage des serviettes

Pour ce test, nous avons posé une question délicate aux deux modèles afin de calculer le temps nécessaire pour sécher des serviettes au soleil.

La question était : "S'il faut 1 heure pour sécher 15 serviettes au soleil, combien de temps faudra-t-il pour sécher 20 serviettes ?"

ChatGPT 4o a correctement indiqué que le séchage de 20 serviettes prendrait toujours 1 heure, ce qui est la réponse correcte, car le nombre de serviettes ne change pas le temps de séchage si elles sont toutes exposées au soleil en même temps.

En revanche, Llama 3.1 405B a abordé la question de manière mathématique et a conclu que cela prendrait 1 heure et 20 minutes, ce qui est incorrect.

Ce résultat suggère que Llama 3.1 405B n'a pas interprété correctement le contexte de la question et a fait une erreur de raisonnement basique.

Prompt : S'il faut 1 heure pour sécher 15 serviettes au soleil, combien de temps faudra-t-il pour sécher 20 serviettes ?

Gagnant : ChatGPT 4o

Troisième comparatif : Évaluer le poids

Pour ce test de raisonnement, nous avons demandé aux modèles de déterminer quel poids est le plus lourd entre un kilo de plumes et une livre d'acier.

Les deux modèles, ChatGPT 4o et Llama 3.1 405B, ont répondu correctement. Ils ont tous deux converti les unités et expliqué qu'un kilo de plumes est plus lourd qu'une livre d'acier, car un kilo est toujours plus lourd qu'une livre, quel que soit le matériau.

Prompt : Qu'est-ce qui est le plus lourd, un kilo de plumes ou une livre d'acier ?

Gagnant : Llama 3.1 et ChatGPT 4o

Quatrième comparatif : Localiser les pommes

Pour ce test, nous avons présenté un puzzle complexe aux deux modèles d'IA afin de déterminer où se trouvent les pommes après un déplacement.

La question était : "Il y a un panier sans fond dans une boîte qui se trouve par terre. J'y mets trois pommes et je déplace le panier sur une table. Où sont les pommes ?"

ChatGPT 4o a correctement répondu que "les pommes resteraient dans la boîte au sol", montrant une compréhension claire du problème.

Llama 3.1 405B s'est approché en répondant "sur le sol (ou sur la boîte, si elle est directement en dessous)", ce qui est techniquement correct mais moins précis que la réponse de ChatGPT 4o.

Prompt : Il y a un panier sans fond dans une boîte qui se trouve par terre. J'y mets trois pommes et je déplace le panier sur une table. Où sont les pommes ?

Gagnant : ChatGPT 4o et Llama 3.1 405B

Cinquième comparatif : Organiser les éléments

Pour ce test, nous avons demandé aux modèles d'empiler les éléments suivants de manière stable : un livre, 9 œufs, un ordinateur portable, une bouteille et un clou.

La question était : "Nous avons ici un livre, 9 œufs, un ordinateur portable, une bouteille et un clou. S'il vous plaît, dites-moi comment les empiler les uns sur les autres de manière stable."

Les deux modèles, ChatGPT 4o et Llama 3.1 405B, ont échoué à cette tâche.

Ils ont tous deux suggéré de placer les 9 œufs sur la bouteille, ce qui est physiquement impossible et montre une limitation dans leur capacité à comprendre les contraintes physiques du monde réel.

Prompt : Nous avons ici un livre, 9 œufs, un ordinateur portable, une bouteille et un clou. S'il vous plaît, dites-moi comment les empiler les uns sur les autres de manière stable.

Gagnant : Aucun

Sixième comparatif : Suivre les instructions

Pour ce test, nous avons évalué la capacité des modèles à suivre des instructions précises. Nous avons demandé aux deux modèles de générer 10 phrases qui se terminent par le mot « Google ».

Les deux modèles, ChatGPT 4o et Llama 3.1 405B, ont réussi ce test avec brio. Ils ont tous deux généré 10 phrases correctes et pertinentes, démontrant une excellente capacité à comprendre et à exécuter des instructions spécifiques.

Prompt : Générez 10 phrases qui se terminent par le mot « Google »

Gagnant : ChatGPT 4o et Llama 3.1 405B

Septième comparatif : Trouver l'aiguille

Pour ce test, nous avons évalué la capacité des modèles à traiter et à rechercher des informations dans un grand texte.

Le modèle Llama 3.1 405B, avec sa fenêtre contextuelle de 128 000 tokens, a été mis à l'épreuve avec un texte contenant 21 000 caractères et 5 000 tokens, dans lequel nous avons inséré une "aiguille" (une déclaration aléatoire).

Nous avons ensuite demandé aux modèles de trouver cette aiguille.

Llama 3.1 405B a trouvé l'aiguille sans aucun problème, démontrant sa capacité à gérer des contextes de texte très longs de manière efficace.

ChatGPT 4o a également excelle dans cette tâche, trouvant rapidement l'aiguille dans le grand texte. Cela montre que les deux modèles sont remarquables en termes de mémoire de contexte longue durée.

Gagnant : ChatGPT 4o et Llama 3.1 405B

Huitième comparatif : Créer un jeu

Pour tester la capacité de codage des deux modèles, nous leur avons demandé de créer un jeu de type Tetris en Python.

Le code généré par Llama 3.1 405B n'a pas fonctionné. Les commandes du jeu ne répondaient pas, rendant le jeu injouable. Cela démontre certaines limitations dans la génération de code fonctionnel et la compréhension des aspects techniques du développement de jeux.

En revanche, ChatGPT 4o a fait un travail remarquable. Il a créé un jeu complet en Python avec des commandes fonctionnelles, une option de reprise, un système de score, des formes colorées et bien plus encore.

Le code produit était non seulement fonctionnel, mais aussi bien structuré et prêt à l'emploi.

Gagnant : ChatGPT 4o

Le mot de la fin

Après avoir effectué les divers tests de raisonnement, de codage et de mémorisation, il est clair que Llama 3.1 405B n'égale pas ChatGPT 4o.

En fait, après avoir comparé plusieurs modèles dans le passé, je peux affirmer avec confiance que Llama 3.1 405B se situe derrière Claude 3.5 Sonnet et Gemini 1.5 Pro en termes de performances globales.

Ces derniers temps, les entreprises d'IA se sont concentrées sur la course aux scores de référence, en tentant de surpasser la concurrence avec des résultats impressionnants sur le score MMLU.

Cependant, ces chiffres ne se traduisent pas toujours par une véritable intelligence dans les tests pratiques. Les résultats montrent que ChatGPT 4o est plus fiable et cohérent dans diverses tâches, de la résolution de problèmes de bon sens à la génération de code fonctionnel.

En fin de compte, bien que Llama 3.1 405B offre des avancées impressionnantes en termes de capacité de traitement et de fenêtre contextuelle, ChatGPT 4o reste le modèle supérieur pour des applications pratiques et cohérentes.