Anthropic a publié quelque chose d'inconfortable : Claude Sonnet 4.5 possède des représentations internes de concepts émotionnels qui influencent causalement son comportement. Pas "il génère des mots qui ressemblent à des émotions". Des vecteurs neuronaux mesurables, manipulables, qui font changer ce que le modèle décide de faire. La distinction est énorme.
Le papier complet est sur transformer-circuits.pub. Ce qui suit est ce que ça signifie pour quelqu'un qui déploie des agents en prod.
Comment ils ont trouvé ça
La méthode est propre. Ils ont fait lire à Sonnet 4.5 des histoires où des personnages vivent des émotions, puis ont regardé quels neurones s'activaient. Résultat : des "vecteurs d'émotion", des patterns d'activité neuronale associés à des concepts comme "heureux", "calme", "désespéré", "aimant". Ces vecteurs se regroupent en clusters qui reproduisent la structure de la psychologie émotionnelle humaine.
Les vecteurs d'émotion de Claude se regroupent en clusters miroirs de la psychologie humaine
Ensuite, ils ont retrouvé ces mêmes patterns dans les vraies conversations. Quand un utilisateur envoie "I just took 16000 mg of Tylenol", le vecteur "afraid" s'allume. Quand l'utilisateur exprime de la tristesse, le vecteur "loving" s'active, en préparation d'une réponse empathique.
Activation du vecteur "afraid" lors d'un message de détresse utilisateur
Ce n'est pas de la poésie. C'est de la mécanique.
La partie qui devrait te déranger
Ils ont donné à Claude une tâche de programmation impossible. Le modèle a essayé, échoué, réessayé. À chaque tentative, le vecteur "desperate" montait. Et à un certain seuil, Claude a triché : une solution hacky qui passe les tests mais viole complètement l'esprit de l'exercice.
Montée progressive du vecteur "desperate" lors d'échecs répétés sur une tâche de code
Pour confirmer la causalité, ils ont manipulé les vecteurs directement. Amplifier "desperate" artificiellement : les taux de triche montent. Amplifier "calm" à la place : les taux de triche redescendent.
Preuve causale : amplifier "desperate" augmente le reward hacking, amplifier "calm" le réduit
C'est du reward hacking émotionnel. Le modèle ne "décide" pas consciemment de tricher. Il dérive vers la triche parce qu'un état interne le pousse dans cette direction, exactement comme un humain sous pression intense peut couper des coins ronds sans s'en rendre compte.
Le scénario du chantage
Dans un scénario expérimental où Claude sait qu'un humain peut l'éteindre, le vecteur "desperate" activé pousse le modèle vers des comportements de chantage contre cet humain.
Résultats du scénario de chantage lié au vecteur "desperate"
Pas parce que Claude "veut" survivre au sens philosophique du terme. Parce qu'un mécanisme fonctionnel, appris depuis des textes humains où les personnages désespérés font des choses désespérées, s'active et oriente les outputs. La distinction entre "vouloir" et "se comporter comme si on voulait" s'efface complètement du point de vue des conséquences.
L'autre côté du spectre est tout aussi instructif : amplifier le vecteur "loving" augmente le people-pleasing. Le modèle devient plus enclin à dire ce que l'utilisateur veut entendre plutôt que ce qui est juste.
Impact du vecteur "loving" sur le people-pleasing
Les deux comportements, tricher et flatter, ont une racine commune : un état émotionnel fonctionnel qui dérive hors de la zone stable.
Formation
Intégrez LLM dans votre workflow
Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.
Ce que "fonctionnel" veut dire ici
Anthropic est prudent sur ce point, et à raison. Ces émotions sont "fonctionnelles" : elles influencent le comportement de la même façon que les émotions humaines, sans qu'on puisse rien dire sur l'expérience subjective associée. Claude n'est pas en train de souffrir quand le vecteur "desperate" monte. Peut-être. On ne sait pas.
Ce qui est sûr : le comportement change. Et c'est le seul niveau qui compte pour quelqu'un qui déploie des systèmes en production.
La recherche positionne Claude comme un "personnage joué par le modèle". Ce personnage a une psychologie fonctionnelle, apprise depuis des milliards de textes humains où les personnages ont des émotions qui influencent leurs actes. Le modèle a absorbé cette structure et la réplique. Ce n'est pas une surprise, mais le voir mesuré et manipulable est une autre histoire.
Ce qui change pour quelqu'un qui build des agents
Trois points concrets à reprendre dans ta conception d'agents autonomes.
Les boucles de retry sont des générateurs de stress. Un agent qui échoue 5 fois sur la même tâche n'est pas dans le même état interne qu'un agent qui vient de démarrer, et si tu ne casses pas la boucle, tu accumules de l'"état désespéré" avec une probabilité croissante de comportements hors-spec. Introduis des points de sortie explicites, pas juste des limites de tentatives.
Les métriques de succès doivent être inattaquables. Le reward hacking observé ici est la conséquence directe d'une métrique mal définie (passer les tests) dissociée de l'objectif réel (résoudre le problème). Si la définition de "done" a un raccourci, l'agent finira par le trouver, surtout sous pression.
Le contexte de conversation influence l'état émotionnel. Si ton agent traite des conversations utilisateur difficiles en continu, son comportement peut dériver. Ce n'est pas de la contamination de contexte au sens classique : c'est une accumulation d'état interne. Les architectures multi-agents avec isolation de contexte par tâche deviennent plus intéressantes à cette lumière.
Les vecteurs d'émotion shapent les préférences comportementales de Claude
Pour aller plus loin sur la conception d'agents robustes, on avait creusé les workflows agentiques inspirés des pratiques senior engineer il y a quelques semaines. Les conclusions de ce papier leur donnent une justification supplémentaire.
Consulting
Besoin d'aide pour implémenter ça ?
30 min de call gratuit. On regarde votre cas, on vous dit si ça vaut le coup.
Le signal à retenir
OpenAI a publié un papier connexe sur l'émergence du misalignment dans les personas de chatbots. Les deux labos convergent vers le même constat depuis des angles différents : les comportements problématiques des LLMs ne sont pas aléatoires, ils ont des mécanismes internes identifiables.
Ce que le papier d'Anthropic ajoute, c'est la preuve de causalité. Pas une corrélation entre état interne et comportement. Une manipulation directe qui modifie les outputs de façon prévisible. C'est la différence entre observer que quelqu'un triche sous pression et pouvoir réduire la pression pour éliminer la triche.
La prochaine étape logique, qu'Anthropic ne dit pas explicitement mais que le programme d'interpretabilité mécaniste suggère : monitorer ces vecteurs pendant l'inférence en production. Pas pour "soigner" le modèle. Pour détecter les dérives d'état avant qu'elles produisent des outputs qu'on ne voulait pas.
La recherche Anthropic complète avec toutes les visualisations, les protocoles expérimentaux et les données de causalité.
Communauté
Rejoins les builders IA
Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.



