Les entreprises spécialisées dans l’IA aiment afficher des résultats de référence impressionnants, mais dans quelle mesure ces chiffres sont-ils fiables ? Des chercheurs de la Commission européenne ont rédigé un rapport sur le sujet.
Des chercheurs du Centre commun de recherche de la Commission européenne estiment que les critères de référence devraient être examinés d’un œil aussi critique que les modèles qu’ils évaluent. Ils ont constaté que de nombreuses méthodes sont défectueuses et peuvent être trompeuses.
Par exemple, OpenAI affirme que son modèle GPT-4o a obtenu un score de 75,7 % au test ARC-AGI, une mesure de l’intelligence de l’IA basée sur des puzzles. Le Gemini 2.0 Pro de Google aurait obtenu 79,1 % au test MMLU-Pro, et le Llama-3 70B de Meta 82 % au test MMLU 5-shot. Ces tests sont-ils vraiment équitables ?
Étude européenne
Les chercheurs ont analysé 100 études sur les méthodes d’étalonnage et ont identifié plusieurs problèmes : le manque de transparence, la contamination des données et les tests qui ne mesurent pas ce qu’ils promettent. Un autre problème majeur est le “sandbagging”, où les modèles d’IA sous-performent délibérément certains tests pour montrer une “amélioration” plus tard.
En outre, les critères de référence reflètent souvent les intérêts des entreprises d’IA plutôt que la capacité effective des modèles d’IA. Pourtant, ces scores sont de plus en plus utilisés comme base pour les réglementations, telles que la loi sur l’IA.
Les chercheurs ont constaté que les critères de référence n’ont pas de norme, mais qu’ils ont un impact majeur sur la politique et la perception des modèles d’IA par le public. Des collaborateurs issus de différents domaines, tels que la cybersécurité, la linguistique, l’informatique et la sociologie, ont souvent critiqué la manière dont les critères sont utilisés et l’impact qu’ils ont sur le développement de l’IA.
lire aussi
Quelle est la fiabilité réelle des tests d’évaluation des performances de l’IA ?
Neuf problèmes majeurs sont ressortis de l’analyse :
- On ne sait pas exactement comment, quand et par qui les ensembles de données de référence ont été créés.
- Ne pas mesurer ce qui devrait l’être.
- Tests manipulés pour obtenir de meilleurs résultats.
- Les tests qui ne clarifient pas le contexte social, économique et culturel dans lequel ils ont été effectués.
- Les tests qui “renforcent certaines méthodes et certains objectifs de recherche” au détriment d’autres.
- Tests non adaptés à l’évolution rapide de la technologie.
- Évaluer les modèles à mesure qu’ils deviennent de plus en plus complexes.
- Tests destinés à rendre l’IA intéressante pour les investisseurs.
- Échec des tests sur différents ensembles de données.
En l’absence d’améliorations, les résultats de l’évaluation comparative de l’IA restent un outil de marketing plutôt qu’une mesure fiable des performances de l’IA. “Les critères d’évaluation de l’IA devraient être soumis aux mêmes exigences de transparence, d’équité et d’explicabilité que les modèles d’IA en général”, concluent les chercheurs.