Leanstral : 6B paramètres actifs pour écraser des modèles 60x plus gros sur la preuve formelle

LLMAnalyse·5 min de lecture·811 mots
Leanstral Normalized Model Cost vs FLTEval Score

Mistral vient de publier Leanstral : un agent de preuve formelle en Lean 4 qui, avec 6B paramètres actifs, dépasse Claude Sonnet sur FLTEval tout en coûtant 15x moins cher. $36 contre $549 pour un score de 26.3 contre 23.7 en pass@2. Ces chiffres ne racontent pas juste une histoire de benchmark, ils racontent quelque chose sur la direction que prend l'ingénierie logicielle critique.

Ce qu'est Lean 4, et pourquoi ça compte maintenant

Lean 4 occupe une position particulière dans l'écosystème : c'est à la fois un langage de programmation fonctionnel et un assistant de preuve formelle. Tu écris du code, tu écris la spécification mathématique de ce que ce code doit faire, et le système vérifie mécaniquement que les deux sont cohérents. Une preuve qui couvre 100% des états possibles, vérifiée par un moteur logique.

Le projet Fermat's Last Theorem (FLT) en Lean 4 est l'exemple emblématique : une formalisation du théorème de Fermat dans un langage que des machines peuvent vérifier. C'est le terrain de jeu sur lequel Mistral a construit FLTEval, son nouveau benchmark.

Le problème avec la preuve formelle jusqu'ici : c'est humainement coûteux. Un expert en Lean 4 qui review des PR de preuves formelles, c'est rare et cher. C'est exactement le goulot d'étranglement que Leanstral cible.

L'architecture qui explique tout

Leanstral-120B-A6B. Le nom dit tout : 120B paramètres totaux, 6B actifs à l'inférence. Architecture MoE (Mixture of Experts) ultra-sparse, héritée de la lignée Mixtral. À chaque forward pass, seule une fraction des poids s'active, ce qui donne des coûts d'inférence proches d'un modèle 6B avec une capacité de représentation d'un 120B.

Ce qui est nouveau ici, c'est l'entraînement : Leanstral a été entraîné spécifiquement pour opérer dans des repositories formels réels, avec Lean comme vérificateur parfait dans la boucle. Pendant le training, chaque tentative de preuve pouvait être vérifiée mécaniquement, ce qui donne un signal de reward d'une précision qu'aucun benchmark humain ne peut atteindre.

Le support natif de lean-lsp-mcp est entraîné dedans. Un modèle optimisé pour l'utiliser en condition réelle, avec les erreurs du Language Server dans la boucle de génération.

FLTEval pass@2
26.3
Leanstral
FLTEval pass@2
23.7
Claude Sonnet
Coût pass@2
$36
Leanstral
Coût pass@2
$549
Claude Sonnet

Ce que FLTEval mesure, et pourquoi c'est différent

La plupart des benchmarks de preuve formelle évaluent des problèmes mathématiques isolés. FLTEval mesure autre chose : compléter toutes les preuves formelles et définir correctement de nouveaux concepts mathématiques dans chaque PR au projet FLT. C'est un contexte de repository réel, avec des dépendances entre preuves, des définitions qui s'accumulent, des contraintes de cohérence globale.

Résultat sur ce benchmark :

  • Qwen3.5-397B-A17B, le meilleur concurrent OSS, atteint 25.4 en pass@4. Leanstral le dépasse en pass@2.
  • GLM5-744B-A40B plafonne à 16.6. Kimi-K2.5-1T-A32B à 20.1. Leanstral les écrase avec un seul pass.
  • Claude Opus à 39.6 reste devant en pass@2, mais à $1650 contre $36. Le rapport est de 46x.

Intégration dans un workflow réel

L'accès se fait via trois canaux. L'API gratuite dans Mistral Vibe pour tester. L'endpoint API officiel pour la prod. Les poids sur HuggingFace sous Apache 2.0 pour ceux qui veulent tourner en local ou fine-tuner.

Pour l'usage local, les GGUF sont déjà disponibles via jackcloudman et LM Studio.

L'intégration avec lean-lsp-mcp dans un pipeline CI ressemble à ça :

# Install lean-lsp-mcp
pip install lean-lsp-mcp

# Config Leanstral via API Mistral
export MISTRAL_API_KEY=your_key

# Lance le serveur MCP
lean-lsp-mcp serve --model leanstral-2603 --repo ./your-lean4-project

Le modèle reçoit les erreurs du Language Server Lean 4 en temps réel et itère sur les preuves, ce qui le distingue d'un LLM qui génère du Lean en one-shot et espère que ça compile.

Page modèle Leanstral sur HuggingFace

Le support MCP arbitraire via Vibe permet aussi de chaîner Leanstral avec d'autres outils dans ton pipeline. On avait exploré l'architecture MCP locale avec MemPalace il y a quelques semaines, les patterns de composition sont les mêmes ici.

Ce que ça change pour les builders, maintenant

La preuve formelle était réservée à des équipes avec des experts Lean 4 internes ou des budgets Claude Opus. Leanstral déplace la contrainte : le goulot devient l'écriture des spécifications, ce qui est fondamentalement le travail d'ingénierie que les humains devraient faire de toute façon.

Pour les équipes qui travaillent sur du code mission-critical (finance, cryptographie, systèmes embarqués), c'est une ouverture concrète vers de la vérification formelle dans le CI, comme outil de prod.

La question qui reste ouverte : FLTEval est-il représentatif des cas d'usage industriels, ou reste-t-il trop ancré dans les mathématiques de recherche ? Mistral promet un tech report avec les détails d'entraînement. Ce document dira beaucoup sur la généralisation réelle du modèle hors du contexte FLT. La documentation officielle et les poids sont disponibles maintenant.

▸ Articles similaires