Selon les chercheurs, le modèle Gemini de Google est quasiment aussi performant que l’ancien modèle GPT-3.5. La version payante de ChatGPT avec GPT-4 est meilleure.
Gemini, le nouveau LLM de Google, ne peut pas rivaliser avec les derniers modèles d’OpenAI. C’est ce que déclarent des chercheurs dans un article publié sur Arxiv.org. La recherche en question a été menée par la célèbre université Carnegie Mellon et la start-up BerriAI, dont le principal objectif est de faciliter l’accès à plusieurs modèles d’IA à l’aide d’invites. Cette recherche semble minutieuse et fiable, mais on attend toujours une révision par des collègues.
Tests approfondis
Les chercheurs ont comparé Gemini Pro et GPT-3.5 Turbo dans plusieurs disciplines, notamment la connaissance, le raisonnement, les mathématiques et la traduction. Pour chacun de ces tests, Gemini a été légèrement moins performant que l’ancien modèle GPT 3.5 Turbo. GPT 4 Turbo a obtenu des résultats bien meilleurs que les autres.
Les chercheurs ont expliqué leur méthode de test dans un article bien compréhensible. Ils ont notamment testé les connaissances des deux modèles à l’aide de 57 questions à choix multiples, dont les réponses de Gemini étaient les moins précises. Pour le raisonnement général, les modèles ont été testés sur 27 tâches, tirées d’une étude antérieure. Là encore, Gemini ne faisait pas bonne figure. En particulier dans une question où un objet est échangé entre différentes entités (une histoire dans laquelle différents amis achètent différents livres et les transmettent ensuite), Gemini a perdu le fil.
Gemini a peut-être une bosse de maths alors ? Pas non plus, selon les chercheurs. Les LLM ont dû résoudre des problèmes de différents niveaux et, une fois de plus, Gemini était le raté.
Bosse des langues
Gemini excelle dans les langues. Les modèles ont été soumis à 20 tâches de traduction et, grosso modo, le modèle de Google a perdu la course ici aussi, mais le score a été serré. Dans huit des 20 cas, Gemini a surpassé GPT 3.5 et même GPT 4.
Le bilan de l’étude est clair : Gemini n’est pas aussi performant que le dernier modèle d’OpenAI. La différence est énorme. À ce stade, Google n’a donc pas rattrapé son retard et OpenAI reste le champion. Nous ne croyons pas que ces résultats surprennent Google. Pourtant, lors de la présentation du modèle, la démo s’est avérée être une simple mise en scène. Voilà qui manque de confiance.
GPT-3.5 est disponible gratuitement via ChatGPT et reste le meilleur modèle gratuit du moment. GPT-4 est bien meilleur et sans équivalent pour le moment. Pour l’utiliser, il faut un abonnement payant à ChatGPT.