Examen cérébral pour l’IA : Le PDG d’Anthropic vise à comprendre les modèles d’IA d’ici 2027

Examen cérébral pour l’IA : Le PDG d’Anthropic vise à comprendre les modèles d’IA d’ici 2027

Le PDG d’Anthropic tire la sonnette d’alarme : les modèles d’IA manquent actuellement de transparence. Malgré les dangers, il existe une dichotomie entre intelligence et interprétabilité.

Dario Amodei, PDG d’Anthropic, plaide en faveur de modèles d’IA génératifs interprétables dans un billet de blog détaillé. « Les personnes extérieures au domaine de la recherche sont souvent surprises et alarmées lorsqu’elles découvrent que nous ne comprenons pas le fonctionnement de nos propres créations d’IA », constate-t-il.

Boîte noire

L’IA générative soulève ainsi un problème tout à fait unique : les chercheurs savent comment créer des modèles et ce qu’ils peuvent faire, mais ce qui se passe à l’intérieur du réseau neuronal d’un LLM et pourquoi certaines entrées produisent des sorties spécifiques reste un mystère. Cet effet dit de boîte noire entraîne un manque de transparence avec les risques qui y sont associés.

Les gens sont surpris et alarmés lorsqu’ils découvrent que nous ne comprenons pas le fonctionnement de nos propres créations d’IA.

Dario Amodei, PDG d’Anthropic

Amodei : « Beaucoup des risques et des préoccupations que nous associons à l’IA générative sont une conséquence du manque de transparence. » Des comportements préjudiciables tels que les préjugés ou le racisme intégré sont ainsi difficiles à prévoir ou à corriger.

Tromperie et pouvoir

Le PDG perçoit des risques encore plus importants. « La manière dont l’IA est entraînée rend possible le développement par les systèmes d’IA d’une capacité à tromper les gens et à rechercher le pouvoir », pense-t-il. C’est déjà en partie vrai : les LLM ont tendance à halluciner des réponses qui satisfont leurs utilisateurs, indépendamment d’éventuelles contrevérités.

Selon Amodei, il existe effectivement des techniques qui pourraient améliorer la transparence. Il affirme qu’il est possible de déchiffrer ce qui se passe dans le processus de réflexion d’un LLM. Les techniques d’interprétabilité mécaniste peuvent révéler comment les neurones des LLM sont précisément connectés, et quel est l’impact de cela sur le processus de réflexion, d’une manière compréhensible par l’être humain.

Examen cérébral

Selon Amodei, l’interprétabilité est la clé pour des modèles plus sûrs, meilleurs et plus fiables. « Notre ambition à long terme est de pouvoir effectuer une sorte d’examen cérébral sur des modèles ultramodernes », dit-il. « Nous pourrons ainsi mettre en lumière les problèmes. Si nous pouvons examiner les modèles, nous pourrons peut-être aussi bloquer toutes les formes de jailbreaks et évaluer quelles connaissances dangereuses les modèles possèdent. »

Amodei souhaite que le domaine de la recherche passe à l’action. « Les chercheurs en IA dans les entreprises, le monde universitaire et les organisations à but non lucratif peuvent accélérer la réalisation de l’interprétabilité en y travaillant directement. Les gouvernements peuvent jouer un rôle avec des règles limitées qui favorisent le développement de l’interprétabilité. »

Intelligent ou interprétable ?

Actuellement, les chercheurs réalisent des progrès, mais il existe une tension. Les entreprises donnent la priorité au développement de modèles toujours plus intelligents, au détriment de la transparence des modèles. Amodei perçoit une course entre l’interprétabilité d’une part, et l’intelligence d’autre part.

lire aussi

Anthropic présente le premier modèle d’IA de Claude avec un “processus de pensée hybride”.

Avec Anthropic, le PDG souhaite montrer l’exemple. D’ici 2027, il veut que son entreprise soit capable de détecter la plupart des problèmes des modèles. Il souhaite que les systèmes d’IA soient compris avant qu’ils ne transforment véritablement la société.

Dario Amodei adopte une position relativement unique, du moins en tant que PDG d’un acteur majeur de l’IA. Anthropic est en effet le poulain d’AWS, qui y investit massivement pour développer des alternatives aux LLM d’OpenAI. OpenAI, Meta et d’autres acteurs accordent encore peu d’attention à l’impact de leurs LLM, et cherchent surtout à produire des modèles plus grands et meilleurs. Amodei plaide essentiellement pour un changement de priorités.

Ce plaidoyer peut contribuer davantage au positionnement d’Anthropic et de ses modèles tels que Claude. Si le PDG parvient à présenter son entreprise comme pionnière en matière de transparence, cela crée une perception avantageuse pour les entreprises qui souhaitent adopter l’IA. Un éventuel retard fonctionnel par rapport à un modèle d’OpenAI, par exemple, peut être compensé en élargissant le débat et en plaçant une avance en matière d’interprétabilité sur un pied d’égalité.