Plusieurs entreprises condamnent le comportement « agressif » du robot d’indexation d’Anthropic, qui visite des sites web jusqu’à des millions de fois par jour pour collecter des données.
Pour rendre les modèles d’IA intelligents, il faut une grande quantité de données. C’est désormais un secret de polichinelle que ces données proviennent de l’internet. Les entreprises d’IA telles qu’OpenAI et Anthropic disposent de robots d’indexation, qui parcourent l’internet et collectent des informations accessibles au public. En théorie, rien n’interdit cette méthode, mais Anthropic semble aller assez loin dans ce domaine.
Kyle Wens, PDG d’iFixit, critique Anthropic dans un message publié op X. Le robot d’Anthropic aurait visité le site un million de fois en 24 heures. Et cela n’est pas tout : le site Freelancer.com a reçu 3,5 millions de visites d’Anthropic en seulement quatre heures.
Les règles de l’internet
Tant iFixit que Freelancer.com dénoncent la manière « agressive » dont Anthropic « scrape » le web. Ce n’est pas seulement parce qu’Anthropic va utiliser leur contenu, mais aussi parce qu’une activité excessive des robots d’indexation peut surcharger les serveurs.
L’affaire est allée si loin sur Freelancer.com que les administrateurs du site ont même dû mettre Anthropic sur leur liste noire. « Ils violent les règles de l’internet », dit le PDG Matt Barrie au Financial Times. Anthropic répond qu’elle examine les plaintes et que son intention n’est pas de se comporter de manière intrusive.
Les fabricants de grands modèles d’intelligence artificielle sont critiqués depuis quelque temps pour la manière dont ils traitent les données publiques sur l’internet. Le raisonnement des membres de l’industrie repose sur le principe que les données publiques peuvent être utilisées pour former des modèles. C’est un raisonnement erroné. Même sur l’internet, les droits d’auteur jouent un rôle tout aussi important.
Depuis, les entreprises d’IA ont conclu des accords de licence avec des médias d’information ou de grandes plateformes internet comme Reddit, qui gèrent et possèdent une grande quantité de contenu. Les entreprises d’IA espèrent ainsi éviter de futures poursuites judiciaires. Anthropic n’a pas encore trouvé de tels accords.
Robot.txt
En tant qu’administrateur web, il est possible de bloquer l’accès des robots d’indexation au site web. En injectant le fichier robot.txt dans le répertoire du site, on met des bâtons dans les roues des robots d’indexation. Mais ce système est encore loin d’être infaillible. En fait, il est assez facile de le contourner en « déguisant » les robots d’indexation en visiteurs légitimes.