Que se passe-t-il lorsqu'un modèle d'IA n'a pas de sécurité ?

L’IA est de plus en plus utilisée par les entreprises, mais la sécurité des modèles n’est souvent pas encore au point.

L’informatique traditionnelle a eu des années pour développer des méthodes de sécurité appropriées, mais les LLM ou modèles d’IA sont encore dans une phase assez vulnérable. Les modèles non sécurisés constituent une cible attrayante pour les cybercriminels, avec des risques potentiellement importants pour les entreprises.

Empoisonnement du modèle : données d’entraînement empoisonnées

L’une des techniques d’attaque les plus connues est l’empoisonnement du modèle. Dans ce cas, les attaquants ajoutent des données trompeuses à l’ensemble de données d’un modèle d’IA pendant la phase d’entraînement. Le modèle peut donc parfois commettre des erreurs et produire des résultats incorrects en raison des données ’empoisonnées’. Il est donc important que les entreprises d’IA intègrent une sécurité suffisante pour empêcher les criminels de s’introduire, et qu’elles vérifient soigneusement la provenance de leurs données d’entraînement. Cependant, une attaque très ciblée peut encore causer des dommages.

Comme la sortie des modèles d’IA dépend de la qualité de leurs données, une petite quantité de mauvaises entrées peut déjà entraîner des biais ou des erreurs.

Supposons qu’une banque utilise un modèle d’IA pour détecter les transactions frauduleuses. Si un attaquant injecte ses données frauduleuses qui sont considérées comme ‘correctes’, le modèle apprend à ignorer les transactions suspectes. Ainsi, un système de détection de fraude est développé qui fait exactement ce que les criminels veulent : ne pas les détecter. Cela ne se produit pas souvent dans la réalité, car les données d’entraînement sont rarement non protégées.

Ingénierie de prompts et garde-fous

Avec des modèles d’IA comme DeepSeek, l’ingénierie de prompts pourrait causer de gros problèmes, car il ne prend pas les règles de sécurité très au sérieux. Dans l’ingénierie de prompts, les prompts sont conçus pour obtenir certaines sorties des modèles.

Selon une étude au début de cette année, DeepSeek ne bloquait aucun prompt nuisible. D’autres modèles d’IA populaires le font en prévoyant des garde-fous (guard rails), mais chez DeepSeek, ceux-ci étaient insuffisants.

Les garde-fous peuvent être pris assez littéralement : ils s’assurent que le modèle d’IA ne s’écarte pas de la ‘voie normale’. Ils veillent à ce qu’aucun conseil financier ne soit donné ou qu’aucune donnée ne soit divulguée, par exemple. Les garde-fous rendent également beaucoup plus difficile pour les cybercriminels d’utiliser les modèles de manière malveillante.

Slopsquatting

Une façon simple d’infiltrer la chaîne d’approvisionnement est le slopsquatting. Avec cette technique, un package logiciel inexistant est enregistré, ce qui peut amener un assistant de codage IA à halluciner ce package logiciel dans son code. Les attaquants en profitent et ajoutent des malwares à ce logiciel pour pouvoir s’introduire dans le système.

Un développeur qui se trompe et installe le mauvais package pour son assistant de codage introduit donc à son insu des malwares qui donnent accès à des données sensibles ou à l’ensemble de l’environnement d’entraînement. Heureusement, la sécurité évolue assez rapidement de nos jours : ces packages logiciels peuvent également être scannés avant utilisation, ou vous n’utilisez que des packages déjà testés par des développeurs de confiance.

Cette forme d’attaque n’est pas nouvelle, car la communauté open source y est confrontée depuis longtemps. Le plus simple est bien sûr de ne pas autoriser l’utilisation lors du codage, ou de donner une formation suffisante à vos employés. Le slopsquatting est une évolution du typosquatting, l’imitation de marques connues. On obtient par exemple Gooogle au lieu de Google. Cette technique est souvent utilisée dans les e-mails de phishing.

Extraction de modèle

Les modèles d’IA travaillent souvent avec des données sensibles, comme les informations des clients. Même lorsque les données ne sont pas directement accessibles, elles peuvent être déduites via certains déclencheurs. Dans l’extraction de modèle, les attaquants tentent d’analyser et d’imiter le comportement d’un modèle. Ils accèdent au modèle via une API et l’imitent sans connaître les paramètres ou les données d’entraînement.

Par distillation, un grand modèle d’IA est utilisé pour entraîner un modèle d’IA plus petit. De manière légale, cela se produit par exemple avec GPT-4 et GPT-4o. Des milliers de questions sont posées à un modèle d’IA, les réponses sont utilisées pour imiter le comportement du modèle.

Les attaquants utilisent également cette technique, car ainsi le modèle des attaquants semble se comporter comme le modèle d’IA original. Ils n’ont pas besoin de véritables données d’entraînement ou d’architecture pour cela, la sortie est suffisante.

Les conséquences pour les entreprises

Un modèle d’IA ‘infecté’ peut avoir de graves conséquences. Les entreprises qui utilisent l’IA doivent réaliser qu’elles sont responsables de la qualité et de la sécurité de leurs modèles.

L’UE renforce davantage les règles avec des législations telles que l’AI Act. Les entreprises doivent pouvoir démontrer que leurs modèles sont effectivement sûrs et qu’elles sont conscientes des risques tels que les biais et les fuites de données. Le non-respect de cette réglementation peut entraîner de lourdes sanctions sous forme d’amendes. Le montant de cette amende dépend du niveau de risque de l’IA :

IA interdite : Jusqu’à 35 millions d’euros ou 7 % du chiffre d’affaires mondial.

IA à haut risque : Jusqu’à 15 millions d’euros ou 3 % du chiffre d’affaires.

Non-respect des exigences de transparence : Jusqu’à 15 millions d’euros ou 3 % du chiffre d’affaires.

Informations incorrectes ou trompeuses : Jusqu’à 7,5 millions d’euros ou 1 % du chiffre d’affaires.

Conclusion

Ceux qui veulent déployer l’IA de manière sûre doivent la considérer dès le premier jour comme un actif précieux de l’entreprise qui mérite autant de protection que les données ou l’infrastructure. Ce n’est qu’ainsi que les entreprises pourront utiliser l’IA sans qu’elle devienne leur plus grande vulnérabilité.