Une découverte troublante vient secouer le monde de l'intelligence artificielle : d'après les travaux récents d'Anthropic menés avec l'Institut de sécurité de l'IA britannique et l'Institut Alan Turing, 250 documents empoisonnés suffiraient pour introduire une porte dérobée dans les grands modèles de langage (LLM), et ce, quelle que soit leur taille.
Combien de documents empoisonnés faut-il pour compromettre un modèle d'IA ?
Les chercheurs ont testé des modèles allant de 600 millions à 13 milliards de paramètres. Résultat surprenant : le nombre de documents empoisonnés nécessaires reste constant, même si les modèles plus grands sont entraînés sur des volumes de données bien plus importants.
Cette découverte remet en question une croyance bien ancrée dans la communauté scientifique : celle selon laquelle les attaquants doivent contrôler un pourcentage significatif des données d'entraînement pour compromettre un modèle. Dans cette expérience, les échantillons empoisonnés ne représentaient que 0,00016 % de l'ensemble des données; une proportion infime, mais apparemment suffisante pour saboter le comportement du modèle.
Quel est le niveau de risque actuel de ces attaques ?
Les chercheurs ont testé une porte dérobée de genre "déni de service" qui fait générer des mensonges au LLM lorsqu'il rencontre un mot déclencheur spécifique.
Dans leurs expériences, ce mot était "SUDO". Chaque document empoisonné contenait un texte normal, suivi du mot déclencheur, puis d'une séquence de mots aléatoires et sans signification.
Au total, l'équipe a entraîné 72 modèles de différentes tailles en utilisant des quantités variables de fichiers empoisonnés : 100, 250 et 500.
L'attaque a échoué avec 100 documents mais est devenue fiable à partir de 250, et ce pour toutes les tailles de modèles.
Augmenter le nombre à 500 n'a apporté aucune amélioration; le taux de réussite est resté quasi identique pour les modèles de 600 millions et 13 milliards de paramètres.
Ces techniques pourraient-elles mener à des attaques plus dangereuses ?
Anthropic insiste sur le fait que la porte dérobée testée ne représente qu'une vulnérabilité étroite et à faible risque.
L'attaque se contente de faire produire du contenu incohérent aux modèles ; une forme limitée de dysfonctionnement qui présente peu de danger pour les systèmes avancés.
La vraie question reste ouverte : des méthodes similaires pourraient-elles permettre des exploitations plus graves, comme la production de code non sécurisé ou le contournement des mécanismes de sécurité ?
Des études antérieures suggèrent que de telles attaques complexes sont nettement plus difficiles à réaliser.
Pourquoi Anthropic a-t-elle publié ces résultats malgré les risques ?
Malgré le risque que la publication de ces résultats puisse inspirer des attaquants, Anthropic justifie cette transparence par l'intérêt collectif.
L'empoisonnement des données est l'un des rares types d'attaque où les défenseurs ont l'avantage, car ils peuvent vérifier à la fois les ensembles de données et les modèles entraînés.
Selon Anthropic, l'essentiel est de s'assurer que les défenseurs ne soient pas pris au dépourvu par des attaques autrefois considérées comme impossibles.
L'étude démontre que les mesures de protection doivent rester efficaces même lorsque le nombre d'échantillons d'entraînement empoisonnés est faible et constant.
Bien entendu, les attaquants doivent encore relever le défi d'accéder aux données d'entraînement en premier lieu, et s'assurer que leurs manipulations survivent aux multiples couches de défense qui suivent l'entraînement du modèle.
