← AI War Room
Intelligence artificielle

Guerre des prix des LLM : entre la flambée Anthropic et le dumping DeepSeek, les budgets IA des entreprises coincés au milieu

Tech4B2B · · 4 min (mis à jour le )
Illustration : Guerre des prix des LLM : entre la flambée Anthropic et le dumping DeepSeek, les budgets IA des entreprises coincés au milieu
  • Sujet: Guerre des prix des LLM : entre la flambée Anthropic et le dumping DeepSeek, les budgets IA des entreprises coincés au milieu
  • Date:
Anthropic vient de boucler un tour de table massif et relève ses tarifs sur Claude, pendant que DeepSeek maintient un rabais de 75 % sur son modèle phare. Entre les deux, les DSI qui ont commencé à industrialiser leurs pipelines IA découvrent que le coût par token n'est qu'une partie de l'équation — et que la facture réelle dépend de choix architecturaux qu'ils ont parfois déjà verrouillés.La guerre des prix des LLM entre dans une phase où les signaux de marché se contredisent ouvertement. Ce dossier tente de démêler ce que ces mouvements tarifaires signifient concrètement pour ceux qui signent les bons de commande.

Anthropic a levé 3,5 milliards de dollars en janvier, puis encore 2 milliards en mars auprès de Google et d'un consortium incluant Lightspeed et Spark Capital. Au total, la valorisation atteint 61,5 milliards de dollars. Quelques semaines après ce dernier tour, les prix de Claude 3.5 Sonnet ont été revus à la hausse — 3 dollars par million de tokens en entrée, 15 dollars en sortie. Pour Claude Opus, on parle de 15 et 75 dollars respectivement. L'entreprise ne cache pas que ces tarifs reflètent le coût réel de l'inférence sur ses modèles les plus capables.

Claude Code, l'agent de développement lancé en preview, a provoqué des factures inattendues chez plusieurs équipes d'ingénierie. Sur les forums internes de grandes entreprises tech, on a vu circuler des captures d'écran de consommations dépassant les 1 000 dollars par développeur et par mois. Anthropic a introduit un système de limites de dépenses, mais le problème structurel reste : un agent autonome qui itère sur du code consomme des tokens à un rythme que les modèles de pricing traditionnels n'avaient pas anticipé.

DeepSeek : 0,27 dollar le million

En face, DeepSeek maintient son rabais de 75 % sur DeepSeek-V3 depuis son lancement. Le million de tokens en entrée coûte 0,27 dollar, la sortie 1,10 dollar. Le modèle R1, positionné sur le raisonnement, affiche 0,55 et 2,19 dollars. Ces prix n'ont pas bougé depuis janvier 2025, malgré une montée en charge significative de l'infrastructure.

Le modèle économique derrière ces tarifs reste opaque. DeepSeek est financé par High-Flyer, un fonds quantitatif chinois qui n'a pas besoin de rentabiliser l'activité LLM à court terme. Liang Wenfeng, le fondateur, a indiqué lors d'un échange avec des développeurs en mars que le coût marginal d'inférence sur leurs clusters de H800 était « soutenable » — sans donner de chiffre. Le fait que Nvidia ait cessé de livrer ses puces les plus performantes en Chine depuis octobre 2023 n'a pas empêché DeepSeek de publier des benchmarks compétitifs avec GPT-4o et Claude Sonnet sur plusieurs tâches.

La question que personne ne pose assez fort : combien de temps un pricing subventionné par un hedge fund tient-il quand le volume d'appels API passe de quelques milliers de développeurs curieux à des charges de production enterprise ?

La grille

Les chiffres sont ceux des API officielles au 1er juin 2025. Pour les modèles open-weight comme Llama, le coût dépend de l'hébergeur — Together AI, Fireworks, ou un cluster interne — et varie du simple au triple.

Claude Code et l'effet multiplicateur

Le vrai déplacement de valeur ne se lit pas dans la grille tarifaire. Il se lit dans les patterns d'usage. Un développeur qui utilise Claude Code pour refactorer un module de 2 000 lignes génère en moyenne entre 500 000 et 2 millions de tokens par session — input et output confondus. Anthropic facture les deux. En mode agentique, le modèle se parle à lui-même : il planifie, exécute, vérifie, corrige. Chaque boucle interne consomme. Les premières estimations internes chez plusieurs éditeurs SaaS français tournent autour de 800 à 1 500 dollars par développeur et par mois pour un usage quotidien de Claude Code sur Opus.

Amazon a réagi en limitant l'accès à Claude Code via Bedrock à des profils de consommation plafonnés. Microsoft, de son côté, pousse GitHub Copilot Workspace sur GPT-4o — un modèle deux à six fois moins cher qu'Opus selon la tâche. La réponse des grandes plateformes cloud est la même partout : encapsuler, limiter, substituer. Pas par souci d'économie pour le client. Parce que les marges sur la revente de tokens Anthropic sont trop fines quand le volume explose.

Le piège du lock-in tarifaire

Les entreprises qui ont construit leurs pipelines RAG ou leurs agents internes sur Claude au cours des neuf derniers mois découvrent un problème classique sous un nouvel emballage. Les prompts systèmes sont optimisés pour un modèle spécifique. Les évaluations de qualité ont été calibrées sur les sorties de Sonnet ou Opus. Migrer vers DeepSeek-V3 ou GPT-4o ne coûte pas zéro — il faut re-tester, ré-évaluer, parfois réécrire les chaînes de prompts. Un responsable technique d'un grand groupe d'assurance français l'a résumé en interne :

« On a choisi Claude parce que c'était le meilleur sur nos cas d'usage juridiques. Maintenant on paie le prix de ce choix, littéralement. »

DeepSeek propose un prix imbattable, mais les contraintes de souveraineté rendent son API directe inutilisable pour une partie des entreprises européennes. Les données transitent par des serveurs en Chine. Aucune certification de conformité RGPD n'a été publiée. Les alternatives hébergées en Europe — via des partenaires comme Scaleway ou OVHcloud qui proposent du DeepSeek on-premise — existent, mais le coût d'inférence local sur des GPU A100 ou H100 ramène la facture bien au-dessus des 0,27 dollar affichés par l'API officielle.

Trois stratégies de pricing, trois paris

Anthropic parie que la qualité justifie le premium. La levée de fonds finance la recherche et l'infrastructure, pas une guerre des prix. Le message implicite : si vous voulez le meilleur modèle pour les tâches complexes, vous paierez en conséquence. Les marges doivent financer la course vers AGI — Sam Altman et Dario Amodei sont d'accord sur ce point, même s'ils ne sont d'accord sur rien d'autre.

OpenAI joue le milieu de gamme. GPT-4o est compétitif sans être le moins cher, et la stratégie repose sur le volume — 400 millions d'utilisateurs hebdomadaires de ChatGPT créent un effet de réseau que l'API seule ne génère pas. Les baisses de prix sont tactiques, ciblées sur les modèles mini pour capturer les cas d'usage à faible marge.

DeepSeek joue un autre jeu. Le pricing agressif n'est pas un modèle commercial — c'est un levier géopolitique et technologique. Démontrer qu'on peut faire aussi bien pour dix fois moins cher déstabilise toute la chaîne de valeur occidentale. Le fait que High-Flyer n'ait pas besoin de revenus API pour survivre change fondamentalement la nature de la compétition.

Ce que les budgets IA absorbent vraiment

Un DSI qui budgète son programme IA en 2025 ne peut pas se contenter de comparer des prix au million de tokens. La facture réelle inclut : le coût d'inférence brut, les frais de plateforme cloud (Bedrock, Vertex, Azure prennent entre 20 et 40 % de marge sur les tokens revendus), le coût d'ingénierie pour maintenir les prompts et les évaluations, le coût de migration si le fournisseur change ses tarifs ou son modèle — ce qu'Anthropic vient de faire. Plusieurs cabinets de conseil estiment que le coût d'inférence ne représente que 30 à 40 % du coût total de possession d'un pipeline LLM en production.

Il y a six mois, Anthropic positionnait Claude comme l'alternative responsable et compétitive à OpenAI. Le discours a glissé. Aujourd'hui, c'est l'alternative premium. La nuance est significative pour les équipes achats qui avaient validé des enveloppes budgétaires sur la base de tarifs de fin 2024.

Google, en baissant Gemini 1.5 Pro de 50 % en février, a envoyé un signal différent : le LLM devient une commodité, et le vrai verrouillage se fait sur la plateforme — Vertex AI, BigQuery, l'intégration native avec Workspace. Le prix du token est un produit d'appel.

Un détail qui circule dans les équipes infra de plusieurs scale-ups parisiennes : certaines ont commencé à router dynamiquement leurs appels API entre plusieurs fournisseurs selon la complexité de la requête. Les tâches simples — classification, extraction, résumé — partent sur GPT-4o mini ou DeepSeek-V3. Les tâches complexes — raisonnement juridique, génération de code critique — restent sur Claude Opus. L'architecture multi-modèle devient une stratégie d'optimisation budgétaire. Elle crée aussi une couche de complexité supplémentaire que personne ne facture encore.

Dario Amodei, lors d'un podcast en avril, a déclaré que « les prix de l'IA vont baisser de façon spectaculaire dans les deux prochaines années ». Ses propres tarifs, eux, ont augmenté.

TL;DR

La guerre des prix des LLM se fracture en trois logiques incompatibles — premium assumé chez Anthropic, commoditisation chez Google, et dumping subventionné chez DeepSeek — et les budgets IA des entreprises sont les premiers à encaisser.

  • Anthropic augmente ses tarifs après avoir levé plus de 5 milliards de dollars en 2025, avec Claude Opus 4 facturé jusqu'à 75 $/M tokens en sortie ; Claude Code génère des factures de 800 à 1 500 $ par développeur et par mois en usage intensif.
  • DeepSeek maintient un rabais de 75 % sur son modèle phare (0,27 $/M tokens en entrée), mais les contraintes de souveraineté et l'opacité du modèle économique limitent son adoption enterprise en Europe.
  • Le coût d'inférence ne représente que 30 à 40 % du coût total d'un pipeline LLM en production : les DSI doivent intégrer les coûts de plateforme cloud, d'ingénierie de prompts et de migration dans leurs arbitrages fournisseurs.

Questions fréquentes

Pourquoi Anthropic augmente-t-il ses prix alors que la tendance du marché est à la baisse?

Anthropic positionne ses modèles sur le segment premium et doit financer une infrastructure d'entraînement et d'inférence coûteuse. La levée de fonds massive finance la R&D, pas une guerre des prix. L'entreprise assume que les clients prêts à payer pour la meilleure qualité sur des tâches complexes ne partiront pas pour une alternative moins chère mais moins performante sur leurs cas d'usage spécifiques.

Les entreprises européennes peuvent-elles réellement utiliser DeepSeek en production?

L'API directe de DeepSeek pose un problème de conformité RGPD, les données transitant par des serveurs en Chine. Des alternatives existent via des hébergeurs européens qui proposent du DeepSeek on-premise, mais le coût local d'inférence sur GPU annule l'essentiel de l'avantage tarifaire affiché par l'API officielle. Pour les cas d'usage non sensibles, certaines entreprises utilisent l'API directe en acceptant le risque.

Comment les DSI peuvent-ils protéger leur budget IA face à ces variations tarifaires?

L'approche qui émerge est le routage multi-modèle : diriger les requêtes simples vers des modèles économiques et réserver les modèles premium aux tâches complexes. Cela suppose une couche d'orchestration supplémentaire et des évaluations de qualité par modèle. L'autre levier est contractuel : négocier des engagements de volume avec plafonnement tarifaire auprès des cloud providers, qui revendent les tokens avec leurs propres marges.

Le brief tech qui compte
Chaque matin à 7h, les 5 signaux tech B2B à ne pas manquer.