Microsoft souhaite reconnaître les données d’entraînement pertinentes pour l’IA dans les réponses

microsoft copilot

Microsoft cherche à réduire l’aspect ‘boîte noire’ des modèles d’IA. L’entreprise étudie la possibilité de découvrir quelles sources et informations constituent la base des réponses fournies par l’IA générative.

Microsoft recherche des chercheurs pour un projet visant à découvrir comment reconnaître les données d’entraînement. Actuellement, l’IA générative fournit des réponses basées sur les données sur lesquelles elle a été entraînée, mais il est très difficile de savoir quelles données sont précisément responsables de la réponse. Le fonctionnement du réseau neuronal d’IA est une boîte noire, avec très peu de transparence.

Microsoft travaille désormais sur un projet visant à entraîner des modèles d’une manière qui maintient visible l’impact des données d’entraînement. En d’autres termes, la sortie d’un modèle devrait pouvoir faire référence avec succès aux données d’entraînement utilisées, et ainsi citer ses sources.

Problème actuel

Cela est pertinent car les grands modèles d’IA tels que ChatGPT sont entraînés sur des données provenant d’Internet, sans qu’une autorisation n’ait été demandée ou que des droits d’auteur n’aient été payés. Si ChatGPT vous donne une réponse correcte à une question de contenu, c’est parce que le modèle a intégré le contenu d’articles de sites d’actualités ou de livres pendant l’entraînement.

En d’autres termes, le travail des gens a été volé à grande échelle et utilisé pour entraîner des modèles d’IA, qui peuvent en partie remplacer le travail de ces personnes. C’est pour cette raison que plusieurs poursuites judiciaires sont en cours, dont une du New York Times contre OpenAI et Microsoft.

Pas d’IA sans données

Les données sont essentielles pour entraîner l’IA. Un modèle financier potentiellement équitable consisterait à rémunérer les créateurs de données lorsqu’elles sont utilisées. L’IA peut dissuader un visiteur de consulter un site d’actualités en fournissant directement les informations de ce site. S’il est clair de quel site proviennent les informations, une compensation pourrait y être liée pour compenser les revenus perdus du site.

La recherche de Microsoft pourrait rendre un tel système possible. Il y a des avantages supplémentaires. Les systèmes d’IA se basent encore trop souvent sur des sources erronées. La transparence sur les sources facilite l’évaluation de la valeur d’une réponse de l’IA générative à une invite.

Nous ne devons pas anticiper les faits. Le phénomène de la boîte noire est notoirement complexe à résoudre. Il n’est pas clair si le projet de Microsoft aboutira à une solution pertinente. De plus, les systèmes d’IA gagnent encore quotidiennement des adeptes grâce à des fonctionnalités construites sur le travail et la créativité de personnes qui n’en ont jamais vu la compensation.

Rémunération vs. utilisation équitable

La façon dont les entreprises gèrent cela varie. Le partenaire de Microsoft, OpenAI, espère renforcer ses liens avec Trump et obtenir une réglementation qui le placerait au-dessus des droits d’auteur. L’utilisation de matériel protégé par le droit d’auteur pour l’entraînement de l’IA tomberait sous le concept américain d’utilisation équitable.