Project Glasswing : Anthropic vient d'admettre que l'IA offensive dépasse les humains

Anthropic a attendu d'avoir 11 partenaires signés, 100 millions de dollars engagés et un rapport technique de 200 pages avant d'annoncer que Claude Mythos Preview trouve des failles logicielles mieux que presque tous les chercheurs en sécurité humains. Une admission publique soigneusement orchestrée.

@AnthropicAI

↗

Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. Powered by Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.

La coalition réunit AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks. Onze organisations qui n'ont pas l'habitude de signer ensemble quoi que ce soit. Le fait qu'elles l'aient fait dit quelque chose sur ce qu'elles ont vu dans les démos.

Les 11 partenaires fondateurs de Project Glasswing

Ce que Mythos Preview a déjà fait

Des milliers de vulnérabilités haute-sévérité. Dans chaque OS majeur. Dans chaque navigateur web. @AnthropicAI l'annonce directement, sans extrapolation de benchmark.

Chart comparatif exploit Firefox par Claude Mythos Preview

Le rapport technique disponible sur red.anthropic.com fait 200 pages. Il contient des exploits concrets, dont un graphe sur les performances de Mythos Preview face aux humains sur l'exploitation de vulnérabilités Firefox. Ce graphe n'est pas flatteur pour les humains.

La formulation officielle est "better than all but the most skilled humans". Concrètement : Mythos Preview dépasse 99% des pentesters en exercice sur la détection et l'exploitation de failles. Le 1% restant, ce sont les meilleurs chercheurs de Google Project Zero ou des équipes équivalentes.

Pourquoi le modèle ne sera pas public

Anthropic le dit sans ambiguïté : Mythos Preview ne sera pas disponible en accès général. Les garde-fous capables de bloquer ses outputs les plus dangereux n'existent pas encore à l'échelle requise.

La suite est plus intéressante. Ces garde-fous vont être testés sur un prochain modèle Claude Opus, pas sur Mythos. Autrement dit, Mythos sert de référence pour calibrer ce qu'il faut bloquer, et Opus servira de terrain d'expérimentation pour les mécanismes de sécurité.

C'est la première fois qu'un modèle frontier est explicitement retenu du marché pour des raisons de capacité offensive, tout en étant activement utilisé en défense dans un cadre contrôlé. Le system card de Mythos Preview détaille les évaluations qui ont conduit à cette décision.

La structure du deal

100 millions de dollars en crédits d'usage Mythos Preview, distribués à 40+ organisations qui maintiennent des logiciels critiques, open source inclus. Les 11 partenaires fondateurs sont dans la boucle, mais la Linux Foundation aussi, ce qui couvre une surface considérable de l'infrastructure logicielle mondiale.

Partenaires fondateurs

AWS, Apple, Google, Microsoft, NVIDIA...

Organisations participantes

40+

Dont projets open source

En crédits Mythos Preview

100M$

Engagés par Anthropic

Pages de rapport technique

200+

red.anthropic.com

Pratiquement : des équipes de sécurité chez Microsoft, Google et Apple vont utiliser Mythos Preview pour auditer leur propre code, avec Anthropic qui consolide les apprentissages et publie les résultats. Un programme de bug bounty à l'échelle industrielle, avec un modèle IA comme principal chercheur.

Le signal dans le bruit

L'angle officiel de Glasswing, c'est la défense. Utiliser Mythos pour trouver les failles avant les attaquants. C'est légitime, et probablement vrai.

Mais l'annonce révèle autre chose : Anthropic savait depuis un moment que Mythos avait ces capacités. Le temps de monter une coalition de onze entreprises, de négocier 100M$ d'engagements, de produire un rapport de 200 pages et de faire signer tout le monde, il s'est passé plusieurs mois. Pendant lesquels Mythos Preview existait et n'était pas public.

Ce n'est pas une critique. C'est la bonne façon de gérer ça. Mais ça veut dire que la fenêtre entre "un modèle frontier atteint des capacités offensives surhumaines" et "le monde le sait" peut être de plusieurs mois, et que cette fenêtre sera probablement plus courte pour les prochains modèles, d'autres labs compris.

L'article sur ASI-Evolve explorait déjà cette dynamique d'IA surpassant les humains dans des domaines critiques. Glasswing en est la version la plus concrète à ce jour, avec des preuves techniques publiées.

Ce qui change pour ta stack

Si des modèles IA trouvent déjà des failles dans les OS et les navigateurs que tu utilises en production, la question n'est plus théorique. Les 40 organisations de Glasswing vont patcher ce que Mythos trouve. Ce qui ne fait pas partie de ces 40 organisations ne sera pas patché en priorité.

Les dépendances open source que tu utilises sans les auditer, les bibliothèques que tu pinnes sans regarder les CVE, les services tiers sur lesquels tu t'appuies : tout ça va être scanné par des modèles de plus en plus capables, côté attaquant comme côté défenseur. La question, c'est de quel côté ton code se retrouve.

L'article sur les vulnérabilités côté agents traite d'un vecteur différent mais complémentaire : pendant que Glasswing s'attaque aux failles dans le code, les agents IA en production sont eux-mêmes des surfaces d'attaque.

Le détail complet de l'initiative est disponible, avec la philosophie de déploiement et les critères de sélection des partenaires. Le rapport technique vaut la lecture si tu travailles sur de la sécurité : les exploits Firefox documentés donnent une idée précise de ce que "surhumain" veut dire dans ce contexte.

La vraie question

Anthropic a choisi de rendre Mythos Preview public sous forme d'initiative de sécurité plutôt que de produit. C'est une décision cohérente avec leur positionnement safety-first, et probablement la moins mauvaise option disponible.

D'autres labs vont développer des capacités équivalentes. Certains choisiront peut-être de ne pas monter de coalition avant de déployer. La prochaine fois que tu verras une annonce comme Glasswing, la question à poser n'est pas "qui a trouvé quoi", c'est "combien de temps avant que ça soit disponible sans garde-fous".

Project Glasswing : Anthropic vient d'admettre que l'IA offensive dépasse les humains

Ce que Mythos Preview a déjà fait

Pourquoi le modèle ne sera pas public

La structure du deal

Le signal dans le bruit

Ce qui change pour ta stack

La vraie question

▸ Tags

▸ Partager

▸ Articles similaires

Ton agent IA se fait manipuler en ce moment même

Feynman : l'agent CLI qui lit les papers à ta place

Anchor Image Architecture : construire un persona IA qui ne glitch pas