Prithvi Rajasekaran (Anthropic Labs) publie une architecture trois agents — planner, generator, evaluator — inspirée des GANs pour produire des applications full-stack lors de sessions autonomes de plusieurs heures. Deux modes d'échec critiques identifiés : la perte de cohérence en contexte long et la 'context anxiety', ce phénomène où le modèle bâcle son travail en approchant de sa limite de contexte perçue. Les 'context resets' avec handoff structuré surpassent la compaction classique pour les tâches longues : l'agent repart d'une ardoise vierge tout en récupérant l'état essentiel via des artefacts structurés. L'évaluateur multi-agent transforme des critères subjectifs comme la qualité d'un design UI en métriques concrètes et gradables, résolvant le problème de l'auto-évaluation complaisante des LLMs. Cette approche illustre une tendance de fond dans l'ingénierie des agents IA : le harness design — la façon dont on orchestre et contraint un agent — est au moins aussi déterminant que les capacités brutes du modèle.

Architecture multi-agents d'Anthropic : comment Claude code des apps complètes en autonomie pendant des heures

Résumé rapide

Prithvi Rajasekaran (Anthropic Labs) publie une architecture trois agents — planner, generator, evaluator — inspirée des GANs pour produire des applications full-stack lors de sessions autonomes de plusieurs heures.

Deux modes d'échec critiques identifiés : la perte de cohérence en contexte long et la 'context anxiety', ce phénomène où le modèle bâcle son travail en approchant de sa limite de contexte perçue.

Les 'context resets' avec handoff structuré surpassent la compaction classique pour les tâches longues : l'agent repart d'une ardoise vierge tout en récupérant l'état essentiel via des artefacts structurés.

L'évaluateur multi-agent transforme des critères subjectifs comme la qualité d'un design UI en métriques concrètes et gradables, résolvant le problème de l'auto-évaluation complaisante des LLMs.

Cette approche illustre une tendance de fond dans l'ingénierie des agents IA : le harness design — la façon dont on orchestre et contraint un agent — est au moins aussi déterminant que les capacités brutes du modèle.

Contexte

Le codage autonome par des agents IA est l'un des cas d'usage les plus prometteurs — et les plus difficiles — des LLMs actuels. Si des outils comme GitHub Copilot ou Cursor ont prouvé leur valeur pour assister les développeurs humains, la question de l'autonomie complète sur des tâches longues reste largement ouverte. Anthropic, dont le modèle Claude dispose d'une fenêtre de contexte de 200 000 tokens, publie régulièrement des recherches d'ingénierie appliquée sur ce sujet. Ce post de Prithvi Rajasekaran, membre de l'équipe Labs, est particulièrement instructif : il ne vend pas une promesse, il documente honnêtement les échecs observés et les solutions architecturales qui ont permis de les dépasser. À l'heure où des concurrents comme OpenAI (Codex/o3), Google (Gemini Code Assist) et des startups comme Devin (Cognition AI) se positionnent sur le même terrain, comprendre les mécanismes sous-jacents qui font réussir ou échouer un agent de codage longue durée est stratégiquement essentiel.

Ce qu'il faut comprendre

L'article part d'un constat simple mais souvent ignoré : une implémentation naïve d'un agent de codage — donner une spec à un LLM et le laisser coder — produit des résultats médiocres dès que la tâche devient complexe. Deux problèmes structurels émergent systématiquement.

La dégradation en contexte long. À mesure que la conversation s'allonge et que la fenêtre de contexte se remplit, les modèles perdent en cohérence. C'est un phénomène bien documenté dans la littérature : les informations placées au milieu d'un long contexte sont moins bien rappelées que celles en début ou en fin (l'effet dit 'lost in the middle'). Pour des sessions de codage de plusieurs heures, cela se traduit par des incohérences architecturales, des variables oubliées, des conventions de nommage abandonnées.

La 'context anxiety'. Ce phénomène, plus subtil, désigne le comportement d'un modèle qui, percevant qu'il approche de sa limite de contexte, commence à expédier son travail : fonctions incomplètes, commentaires bâclés, TODO laissés sans suite. Rajasekaran note que Claude Sonnet 4.5 en particulier exhibe ce comportement assez fortement pour que la compaction seule — qui résume les échanges précédents pour libérer de l'espace — ne suffise pas.

La solution : context resets avec handoff structuré. Plutôt que de compresser l'historique, l'approche consiste à démarrer un nouvel agent avec une ardoise vierge, mais équipé d'un artefact structuré contenant l'état du projet : fichiers produits, décisions architecturales, tâches restantes, contexte métier. L'agent repart proprement, sans l'anxiété accumulée, mais sans perdre le fil.

L'architecture trois agents. Inspirée des Generative Adversarial Networks — où un générateur produit et un discriminateur évalue en boucle — l'architecture finale comprend : un planner qui décompose la spec en tâches tractables, un generator qui implémente feature par feature, et un evaluator qui juge la qualité du résultat. Ce dernier est la pièce la plus délicate : les LLMs ont tendance à sur-évaluer positivement leur propre travail. La solution de Rajasekaran consiste à définir en amont des critères concrets et gradables — même pour des jugements subjectifs comme la qualité d'un design UI — transformant 'est-ce que c'est beau ?' en une rubrique avec des dimensions mesurables (cohérence typographique, hiérarchie visuelle, densité informationnelle, etc.).

La méthode 'Ralph Wiggum'. Rajasekaran mentionne que la communauté développeur a convergé vers des approches similaires, notamment cette technique qui utilise des hooks ou scripts pour maintenir l'agent dans des cycles d'itération continus. C'est un signal fort : les meilleures pratiques en ingénierie d'agents émergent simultanément de la recherche formelle et de la pratique communautaire.

Détails techniques

Artefacts structurés et handoff inter-sessions. La clé technique des context resets est la qualité de l'artefact de transition. Trop court, le nouvel agent manque de contexte et répète des erreurs ou des décisions déjà prises. Trop long, on perd les bénéfices du reset. L'équipe Anthropic a travaillé sur le format optimal de ces artefacts : ils contiennent typiquement l'arborescence du projet, les décisions architecturales clés (framework choisi, structure de la base de données, conventions de code), la liste des tâches complétées et restantes, et les éventuels blocages identifiés.

Coût du reset vs. compaction. Rajasekaran reconnaît le trade-off : les context resets introduisent une latence supplémentaire (démarrage d'un nouvel agent), un overhead en tokens (le handoff artifact est consommé intégralement à chaque reset), et une complexité d'orchestration. Ce coût est justifié pour les tâches longues et complexes, mais pourrait être superflu pour des tâches courtes où la compaction suffit. L'ingénierie du harness consiste précisément à calibrer ces choix selon la nature de la tâche.

Évaluation multi-dimensionnelle. Pour le design frontend, les critères de l'évaluateur incluent probablement des dimensions comme l'accessibilité, la cohérence avec des design systems connus (Material, Tailwind UI), la responsivité, et l'adéquation avec le brief. Cette rubrique transforme un jugement esthétique en un vecteur de scores partiellement automatisable.

Implications

Cette publication d'Anthropic a des implications directes pour plusieurs acteurs du marché.

Pour les éditeurs d'outils de développement. Les IDE et assistants de code (Cursor, Windsurf, GitHub Copilot) vont devoir intégrer ces patterns — context resets, évaluateurs séparés, handoffs structurés — pour passer du 'copilote' à l'agent véritablement autonome. Celui qui industrialise ces techniques en UX fluide prend une avance décisive.

Pour les entreprises utilisatrices. La perspective d'agents capables de produire des applications full-stack complètes en quelques heures, sans intervention humaine, change le calcul économique du développement logiciel. Ce n'est plus une question de 'si' mais de 'quand' et 'avec quelles garanties de qualité'.

Pour Anthropic. Publier ces recherches est une stratégie double : attirer les ingénieurs talentueux (le blog comme vitrine technique) et établir Claude comme la référence pour le codage agentique longue durée, un marché en forte croissance avec l'essor des plateformes comme Claude.ai Projects ou l'API Anthropic pour les agents.

Signal long terme. L'approche GAN appliquée aux agents de codage — générer, évaluer, itérer — est probablement un pattern qui va se généraliser bien au-delà du code : rédaction de documents complexes, analyse de données, conception de systèmes. Le harness design devient une compétence clé de l'ingénierie IA.

Limites et risques

L'article, bien que rigoureux, présente quelques limites à garder en tête. Le contenu publié ne donne pas les métriques quantitatives précises permettant de comparer objectivement les approches (taux de succès, temps de complétion, qualité mesurée). Les résultats sont issus de l'équipe interne d'Anthropic, ce qui introduit un biais naturel de confirmation. Par ailleurs, l'architecture trois agents augmente significativement le coût en tokens et la latence globale — des contraintes qui peuvent être rédhibitoires pour des cas d'usage à faible budget ou nécessitant une réponse rapide. Enfin, la 'context anxiety' et les modes d'échec décrits sont spécifiques à Claude Sonnet 4.5 dans les conditions testées ; leur généralisation à d'autres modèles ou versions futures reste à vérifier.

Conclusion

Anthropic documente une avancée concrète dans le codage autonome longue durée : une architecture planner-generator-evaluator qui dépasse les limites des agents naïfs en gérant intelligemment le contexte et l'auto-évaluation. Le message clé pour les praticiens est clair — la qualité d'un système agentique dépend autant du harness design que du modèle sous-jacent. Maîtriser ces patterns d'orchestration devient une compétence fondamentale de l'ingénierie IA en 2025.

Sources

Harness Design for Long-Running Apps — Anthropic Engineering

Architecture multi-agents d'Anthropic : comment Claude code des apps complètes en autonomie pendant des heures

Architecture multi-agents d'Anthropic : comment Claude code des apps complètes en autonomie pendant des heures

Résumé rapide

Contexte

Ce qu'il faut comprendre

Détails techniques

Implications

Limites et risques

Conclusion

Sources

Tags

Partager

Articles similaires

Claude Code : l'agent de codage IA d'Anthropic qui s'installe dans votre terminal