Nouvelle formation pour l’IA d’OpenAI pour mettre fin aux hallucinations

OpenAI logo

Bien que l’intelligence artificielle soit de plus en plus performante, les réponses des chatbots sont encore souvent bourrées d’erreurs monumentales. L’OpenAI mène actuellement des recherches pour améliorer cette situation.

Depuis la création de ChatGPT d’OpenAI, la popularité des chatbots d’intelligence artificielle connaît un essor sans précédent en très peu de temps. Les modèles d’apprentissage avec lesquels l’IA se forme sont vastes, mais pas sans défaut ni omniscients. Souvent, des systèmes comme ChatGPT ou Google Bard composent eux-mêmes quelque chose quand ils ne connaissent pas la réponse et « vendent » ces fabrications comme des informations correctes.

Quelques exemples

Chez Google Bard, la présentation l’a immédiatement démontré au grand jour. Le système a prétendu que le télescope spatial James Webb avait pris la toute première photo d’une planète située en dehors de notre système solaire. En fait, cet honneur revient au Very Large Telescope de l’Observatoire européen austral au Chili, qui a pris une photo d’une exoplanète en 2004. C’était près de 17 ans avant le lancement de la sonde James Webb.

Inventer de toutes pièces numériques peut aussi avoir des conséquences juridiques. Récemment, un avocat new-yorkais a pensé renforcer les preuves en faveur de son équipe, dans le procès de son client contre une compagnie aérienne, en présentant au tribunal un bon nombre de cas similaires dans un dossier volumineux. Mais, il avait utilisé ChatGPT pour créer ce dossier et le système semblait avoir inventé tous les cas. Le juge a immédiatement ordonné une audience contre l’avocat pour déterminer les sanctions. On attend encore le résultat de l’affaire, qui est toujours en cours. Mais le plaignant est certainement moins à l’aise après cette débâcle.

Le PDG d’OpenAI met en garde le monde entier contre les inconvénients de l’intelligence artificielle, en s’appuyant partiellement sur ces exemples. Cela n’a pas empêché l’entreprise de lancer entre-temps une application officielle ChatGPT pour iPhone.

Solution

Pour éviter ces problèmes, l’OpenAI va développer de nouvelles méthodes de formation plus efficaces. Le principe consiste à récompenser l’IA pour les résultats fiables et à décourager les résultats indésirables. L’idée n’est pas de se limiter au résultat final, mais de l’appliquer à chaque étape ; « supervision du processus » au lieu de « supervision du résultat ». Cette approche rendrait le raisonnement du système plus transparent.

Pour les chercheurs de l’OpenAI, cette méthode a de nombreux avantages. En contrôlant l’ensemble du processus et pas seulement le résultat, l’IA raisonne beaucoup moins selon le principe « la fin justifie les moyens ». La supervision humaine à chaque étape aide à mieux interpréter le processus, selon les chercheurs. L’inconvénient de cette méthode est qu’elle ralentit la formation de l’IA. On ne sait pas comment le système sera récompensé, mais ce ne sera sûrement pas avec un bonbon.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.
retour à la maison