Lock-in : Anthropic veut gérer la mémoire, les évaluations et l'orchestration de vos agents

Anthropic a lancé Claude Managed Agents le 8 avril. En surface, la promesse est simple : les entreprises définissent l'agent, ses outils et ses garde-fous ; Anthropic gère le reste — sandbox sécurisé, gestion d'état, journalisation, reprise sur erreur. Notion, Rakuten, Sentry, Asana, Atlassian figurent parmi les premiers clients en production. Trente jours plus tard, le périmètre du service a changé.
Le 7 mai, Anthropic annonce trois nouvelles capacités : Dreaming, Outcomes et Multi-Agent Orchestration. Pris séparément, chacun est une fonctionnalité technique. Pris ensemble, ils décrivent quelque chose d'autre.
Ce que fait Dreaming
Dreaming est un processus planifié qui analyse les sessions passées et les memory stores de l'agent pour en extraire des patterns, corriger les contradictions, et produire une mémoire réorganisée. Selon Anthropic, un agent Harvey travaillant sur la rédaction juridique longue durée a vu ses taux de complétion multipliés par six après activation. L'architecture est non destructive — les inputs ne sont jamais modifiés, seul un output store distinct est produit. Mais le substrat — transcripts de sessions, stores mémoire — réside sur l'infrastructure d'Anthropic.
Ce n'est pas un détail d'implémentation. Une mémoire d'agent qui s'améliore entre sessions en analysant des centaines de transcripts internes à l'entreprise est un actif opérationnel. Sa portabilité n'est pas garantie.
Ce que fait Outcomes
Outcomes déplace l'évaluation à l'intérieur de la boucle d'exécution. Un rubric définit ce que "réussi" signifie ; un grader indépendant — dans son propre context window pour éviter les biais du raisonnement de l'agent — évalue l'output et renvoie des instructions correctrices jusqu'à ce que le critère soit satisfait ou que le budget d'itération soit épuisé. Wisedocs l'utilise pour valider des rapports médicaux : les reviews tournent 50 % plus vite tout en restant alignées avec les standards internes.
Les frameworks d'évaluation externes — DeepEval, custom QA loops, human-in-the-loop — font exactement la même chose. La différence est que leur output appartient à l'entreprise qui les opère. Avec Outcomes, le rubric et les logs d'évaluation vivent dans le système Anthropic.
Ce que fait Multi-Agent Orchestration
Un agent lead décompose une tâche complexe et délègue à des agents spécialisés, chacun avec son propre modèle, prompt et outillage. Netflix l'utilise pour analyser en parallèle des logs de centaines de builds et ne remonter que les patterns qui se répètent. Les agents partagent un filesystem commun et un event stream persistant.
L'event stream persistant est le nœud. Toute l'architecture de Managed Agents repose sur un log d'événements append-only — ce qu'Anthropic appelle la couche "session". C'est la couche durable. C'est là que réside la valeur opérationnelle accumulée. C'est celle qui ne se migre pas facilement.
Anthropic était explicite à ce sujet dans son billet d'ingénierie d'avril : l'objectif est de séparer le "brain" (Claude et son harness), les "hands" (containers et outils), et la "session" (le log durable). Le brain est stateless et remplaçable. Les hands sont jetables. La session est ce qui persiste. C'est aussi ce qui crée l'attachement.
La recherche directionnelle de VentureBeat sur Q1 2026 place Microsoft (Copilot Studio/Azure AI) à 38,6 % des entreprises sondées sur l'orchestration, OpenAI à 25,7 %. Anthropic est passé de 0 % à 5,7 % entre janvier et février — uniquement sur son tooling natif, avant le lancement de Managed Agents. La trajectoire est claire : les entreprises qui adoptent Claude tendent à adopter l'infrastructure Anthropic plutôt qu'un framework tiers.
OpenAI a fait un choix publiquement inverse. En réponse directe au lancement du 8 avril, OpenAI a mis à jour son Agents SDK open source le 15 avril — sans frais de runtime supplémentaires, sans session-hour meter, avec une architecture où le développeur choisit lui-même où stocker l'état. Le communiqué OpenAI a dit explicitement que les managed agent APIs "simplifient le déploiement au coût de contraindre où les agents s'exécutent et comment ils accèdent aux données sensibles." C'est un désaccord public et direct avec la trajectoire Anthropic, Google et Microsoft.
Google Vertex AI Agent Engine facture chaque couche séparément — sessions, mémoire, code execution, observabilité — ce qui rend les coûts plus lisibles mais pas nécessairement inférieurs. Microsoft Copilot Studio facture par bloc de messages (200 $/mois pour 25 000 messages), un modèle capacity-based plus prévisible que le session-hour d'Anthropic.
Le pricing Managed Agents est transparent dans sa structure : tokens au tarif standard (Sonnet 4.6 à 3 $/M input, 15 $/M output ; Opus 4.6 à 5 $/M input, 25 $/M output) + 0,08 $ par session-hour de runtime actif. La plateforme est disponible uniquement via l'API directe Anthropic — pas sur Bedrock, pas sur Vertex AI, pas sur Foundry. Le Batch API à 50 % de réduction ne s'applique pas aux sessions Managed Agents. Les sessions sont stateful et interactives : "there is no batch mode", dit la documentation officielle.
Ce n'est pas Managed Agents seul qui crée le lock-in. C'est la combinaison. Un agent qui tourne depuis des semaines sur Managed Agents a accumulé des memory stores enrichis par Dreaming, des rubrics d'Outcomes calibrés sur les standards internes de l'entreprise, un event log complet de chaque décision prise. Migrer cet agent vers LangGraph ou une infrastructure self-hosted ne signifie pas transférer un modèle. Cela signifie reconstruire la mémoire opérationnelle, recalibrer l'évaluation, et repartir d'un log vide.
Le 5 mai à New York, en présence de Jamie Dimon, Anthropic a présenté dix templates d'agents pour la finance — pitchbooks, KYC, clôtures comptables — déployables soit comme plugins Cowork, soit comme Claude Managed Agents pour les workflows autonomes sur la durée. Anthropic's CCO Paul Smith a décrit ce qu'il appelle une "staircase of autonomy" en finance. La métaphore est juste. C'est aussi une description de l'escalier sur lequel la dépendance s'installe progressivement.
Le détail que personne ne mentionne : Dreaming est en research preview. Pour y accéder, les équipes doivent formuler une demande d'accès séparée. Elles signent pour un accès à un service en cours de définition, dont les comportements "may be refined between releases", selon la documentation. Les entreprises qui construisent des workflows critiques sur une mémoire d'agent dont les règles d'évolution sont fixées par le prestataire.
TL;DR
Anthropic a transformé son infrastructure d'hébergement d'agents en système opérant complet en trente jours — et chaque couche ajoutée est une couche de données stratégiques qui migre vers son infrastructure.
- Dreaming, Outcomes et Multi-Agent Orchestration intègrent mémoire cross-sessions, évaluation et orchestration dans un runtime propriétaire unique, remplaçant des outils tiers que les entreprises contrôlaient jusqu'ici elles-mêmes.
- Le log de session persistant — couche durable de toute l'architecture — stocke l'historique complet des décisions de l'agent chez Anthropic ; sa portabilité n'est pas documentée.
- OpenAI a explicitement choisi la direction inverse (SDK open source, zéro runtime fee propriétaire) en le justifiant publiquement par les risques de contrainte d'accès aux données sensibles.
Questions fréquentes
Peut-on exporter les données de session et les memory stores?
L'API Memory Stores permet de lire les stores, mais leur structure et le format de Dreaming ne correspondent à aucun standard portable. Migrer un agent mature vers une autre infrastructure signifie reconstruire la mémoire opérationnelle depuis zéro — les transcripts bruts ne transfèrent pas la valeur sémantique accumulée.
Quel est l'impact sur les entreprises déjà équipées de LangGraph, Pinecone ou DeepEval?
Ces stacks continuent à fonctionner sur l'API Messages d'Anthropic. Managed Agents est une alternative, pas une obligation. Mais la traction commerciale d'Anthropic montre que les entreprises utilisant Claude tendent à adopter son tooling natif — et chaque fonctionnalité native adoptée rend le maintien d'une stack hybride plus coûteux à long terme.
Dreaming en research preview : quel niveau de risque pour la production?
Anthropic précise que les comportements "may be refined between releases". Les entreprises qui intègrent Dreaming dans des workflows critiques s'exposent à des changements de comportement de leur mémoire d'agent sans contrôle sur le calendrier ni la nature des modifications. C'est le risque habituel du SaaS en bêta — amplifié par le fait que c'est la mémoire opérationnelle de l'agent qui est en jeu.