GPT-5.5 devant Claude Fable 5 sur Agents' Last Exam : ce que le benchmark dit - et ce qu'il ne dit pas

OpenAI a publié les scores de GPT-5.5 sur Agents' Last Exam, un benchmark relativement récent qui évalue la capacité des LLM à orchestrer des séquences d'actions autonomes — recherche d'information, appels d'outils, raisonnement multi-étapes — pour résoudre des problèmes ouverts. Le modèle atteint 38,7 % de résolution complète, contre 34,2 % pour Claude Fable 5, le dernier modèle agentique d'Anthropic. Gemini Ultra 2.5 de Google se place à 31,8 %.
L'écart de 4,5 points semble net. Il l'est moins quand on regarde la variance par catégorie de tâches. Sur les épreuves de codage autonome, Fable 5 dépasse GPT-5.5 de deux points. Sur le raisonnement juridique et les tâches nécessitant une navigation web structurée, GPT-5.5 creuse l'écart. Le benchmark agrège des compétences hétérogènes, et le classement final dépend autant de la pondération que de la performance brute.
Ces chiffres sont ceux communiqués par OpenAI. Anthropic n'a pas publié ses propres runs sur cette version du benchmark. Quand on sait que les conditions d'évaluation — nombre de tentatives autorisées, budget de tokens, outils disponibles dans le harness — peuvent faire varier un score de plusieurs points, la prudence s'impose. Agents' Last Exam n'est pas encore accompagné d'un protocole d'évaluation standardisé audité par un tiers. Chaque lab fait tourner le test avec ses propres paramètres.
Le terrain choisi
Il y a dix-huit mois, OpenAI présentait GPT-4o en insistant sur la multimodalité et la vitesse de réponse. Les benchmarks agentiques n'étaient pas au centre du discours. Depuis, le marché a basculé. Tous les grands labs se positionnent sur l'IA agentique, et les benchmarks qui mesurent cette capacité sont devenus l'étalon implicite pour les acheteurs enterprise. OpenAI a ajusté son narratif en conséquence.
Anthropic, de son côté, avait fait du mode agentique de Claude un argument central depuis le lancement de Computer Use fin 2024. Le message était clair : Claude serait le modèle qui agit, pas seulement celui qui répond. Que GPT-5.5 le devance sur un benchmark agentique — même partiellement, même dans des conditions non normalisées — complique cette narration.
Dario Amodei n'a pas commenté publiquement les résultats. Un ingénieur d'Anthropic a simplement noté sur X que les scores dépendaient fortement du scaffolding utilisé et que Fable 5 avait été optimisé pour des tâches de production, pas pour des benchmarks académiques. Une défense classique, qui n'est pas fausse pour autant.
38,7 %
Le chiffre lui-même mérite qu'on le regarde en face. Le meilleur modèle disponible résout moins de quatre tâches agentiques complexes sur dix. Le benchmark a été conçu pour rester difficile longtemps — ses créateurs à Scale AI et à l'université de Princeton ont explicitement dit vouloir éviter la saturation rapide qui avait rendu MMLU inutile en moins de deux ans. La barre est haute. Mais 38,7 %, c'est aussi un rappel que l'IA agentique autonome reste largement sous le seuil de fiabilité que les DSI exigent pour des workflows critiques.
Un responsable infrastructure d'un grand groupe industriel français résumait la situation lors d'un événement à La Défense la semaine dernière : « On nous vend des agents, on déploie des assistants avec un humain dans la boucle à chaque étape. Le delta entre la promesse et ce qu'on met en production est énorme. » La salle n'a pas réagi. Tout le monde savait.
Le benchmark ne teste pas la robustesse dans le temps, ni la gestion des cas limites en environnement réel, ni la capacité à échouer proprement — trois préoccupations centrales pour quiconque envisage de déployer un agent en production. Il mesure une compétence ponctuelle sur des tâches isolées. C'est utile. Ce n'est pas suffisant pour prendre une décision d'achat.
Qui achète quoi
Le vrai sujet pour les acheteurs enterprise n'est pas le score brut. C'est l'intégration. GPT-5.5 est disponible via l'API OpenAI et dans Azure AI, avec un écosystème de connecteurs et de partenaires ISV qui reste le plus large du marché. Claude Fable 5 tourne sur AWS Bedrock et sur l'API directe d'Anthropic, avec un écosystème partenaires plus restreint mais une réputation de fiabilité sur les tâches longues et le respect des instructions complexes.
Google pousse Gemini Ultra 2.5 dans Vertex AI avec l'argument de l'intégration Workspace. Troisième sur le benchmark, mais premier sur la base installée bureautique. Les benchmarks agentiques ne captent pas cet avantage-là.
Aucun des trois ne publie de données consolidées sur les taux d'échec en production, les coûts réels par tâche agentique complétée, ou le temps moyen de résolution en conditions opérationnelles. Les benchmarks comblent un vide. Ils ne le comblent pas bien.
La mécanique du classement
Agents' Last Exam est devenu en quelques mois le benchmark de référence pour l'IA agentique, un peu comme MMLU l'avait été pour le raisonnement général. Il bénéficie du soutien de Scale AI, qui fournit l'infrastructure d'évaluation, et d'un comité académique qui met à jour les tâches régulièrement pour éviter la contamination des données d'entraînement. Le protocole est ouvert, mais les conditions de run ne sont pas imposées. Chaque lab peut ajuster le nombre de retries, le timeout, le budget de tokens. Ce n'est pas de la triche. C'est de l'optimisation. Et ça rend les comparaisons directes fragiles.
Il y avait trente-sept personnes dans la salle quand les résultats ont été présentés lors d'un side event à San Francisco. Le slide avec le classement est resté affiché quarante secondes. Le slide suivant détaillait les nouvelles fonctionnalités enterprise de l'API OpenAI. Le benchmark est un outil de communication avant d'être un outil de mesure.
Sam Altman a posté le graphique de score sur X avec un emoji fusée et aucun commentaire. Le post a généré 4,2 millions de vues en douze heures.
TL;DR
GPT-5.5 devance Claude Fable 5 sur le benchmark agentique de référence, mais le score absolu — 38,7 % — et les conditions de test non standardisées relativisent sérieusement la portée du résultat.
- OpenAI revendique 38,7 % sur Agents' Last Exam contre 34,2 % pour Claude Fable 5, mais les conditions de run varient d'un lab à l'autre et Anthropic n'a pas publié ses propres résultats sur cette version.
- Le benchmark ne mesure ni la robustesse en production, ni les coûts par tâche, ni la gestion des échecs — trois critères décisifs pour un déploiement enterprise.
- Le vrai différenciateur pour les acheteurs reste l'écosystème d'intégration (Azure, Bedrock, Vertex), pas un classement sur un test académique dont le meilleur modèle échoue six fois sur dix.
Questions fréquentes
Agents' Last Exam est-il un benchmark fiable pour comparer les modèles agentiques ?
Il est le plus exigeant disponible aujourd'hui et bénéficie d'un comité académique sérieux, mais l'absence de protocole de run imposé permet à chaque lab d'optimiser ses conditions de test. Les scores ne sont pas directement comparables sans connaître les paramètres exacts utilisés.
Ce résultat change-t-il la donne pour les entreprises qui évaluent des plateformes d'IA agentique ?
Pas directement. Un score de benchmark ne prédit pas le comportement en production. Les critères déterminants pour un déploiement restent l'intégration avec l'infrastructure existante, le coût par tâche, la fiabilité sur la durée et la gestion des erreurs — aucun de ces éléments n'est mesuré par le benchmark.
Anthropic est-il en difficulté face à OpenAI sur le terrain de l'IA agentique ?
Anthropic conserve un avantage reconnu sur les tâches de codage autonome et le suivi d'instructions longues. Mais le positionnement exclusif sur l'agentique devient plus risqué quand le concurrent principal affiche un meilleur score sur le benchmark de référence du domaine, même si ce score est contestable dans ses conditions de production.