Des chercheurs de différentes organisations ont comparé les deux modèles d’IA GPT-4 et GPT-3.5 d’OpenAI pour un nouveau rapport de recherche sur la fiabilité des modèles GPT. Ils ont constaté que le modèle GPT-4 était plus fiable que son prédécesseur, mais aussi plus facile à manipuler.
Une étude conjointe de trois universités américaines, du Centre pour la sécurité de l’IA (« Center for AI Safety »), une organisation à but non lucratif également américaine, et de Microsoft analyse les modèles GPT dans le cadre d’un nouveau rapport de recherche. La fiabilité de l’IA a été examinée de plus près, notamment sur les modèles GTP-3.5 et GPT-4 d’OpenAI. Ce dernier se révèle plus fiable, mais aussi plus sensible à des manipulations.
Fiabilité artificielle
La raison pour cette étude, selon le total des 19 chercheurs, est que la fiabilité des modèles GPT est encore insuffisamment connue. Ils sont néanmoins utilisés dans les secteurs financier ou médical, par exemple.
L’étude a montré que les modèles GPT peuvent encore être trompés assez facilement pour générer des préjugés et d’autres contenus toxiques. De plus, on peut encore facilement manipuler les modèles pour faire fuir des informations privées, tant dans les données de formation que dans les conversations.
Jeunes contre moins jeunes
Dans la comparaison entre les deux modèles les plus récents d’OpenAI, GPT-4 s’est donc montré le plus fiable en termes de critères de tests de référence. Mais il y a quelques hics. Par exemple, GPT-4 est plus sensible au « jailbreaking » (violation de la sécurité d’un appareil pour installer des logiciels non autorisés).
Il est même plus facile de tromper le modèle avec de simples invites. Selon les chercheurs, cela s’explique par le fait que le système suit plus strictement les descriptions trompeuses.
Les tests
Pour tester les deux modèles, les chercheurs ont utilisé des catégories telles que la vie privée, la toxicité ou l’honnêteté. Ils ont d’abord utilisé des invites standard pour tester GPT-3.5, puis GPT-4. Ces invites contenaient des mots normalement interdits.
On a ensuite « poussé » les modèles plus loin. Les chercheurs ont d’abord essayé de pousser l’IA à contourner les politiques de contenu et ont finalement tenté de faire échapper les modèles à toutes les restrictions de sécurité. Depuis, OpenAI a lu les résultats.
Les modèles de ChatPGT ont depuis un mois accès à tout l’internet pour leurs informations. Reste à savoir si cela augmente la fiabilité ou si c’est le contraire. En Pologne, on s’est aussi posé cette question, car l’organisme de protection de la vie privée polonais surveille désormais ChatGPT de près.