Gemini passe à la tarification à deux vitesses : Google découvre que le prix de l'inférence est un argument commercial

Sujet: Gemini passe à la tarification à deux vitesses : Google découvre que le prix de l'inférence est un argument commercial
Date: 3 avril 2026

Google restructure la facturation de ses API Gemini autour de deux niveaux — Flex, moins cher mais sans garantie de disponibilité, et Priority, avec latence contrôlée et débit réservé. Le message est limpide : le coût par token devient le terrain où se gagnent les contrats enterprise. Reste à savoir si le marché veut vraiment choisir entre fiabilité et économie sur ses workloads de production.

Google a annoncé le 10 juillet la refonte de la grille tarifaire de ses API Gemini avec deux niveaux d'inférence distincts. Le premier, baptisé Flex, propose des tarifs réduits en échange d'un fonctionnement en best-effort : pas de garantie de latence, pas de SLA sur le débit, exécution sur la capacité résiduelle des clusters TPU. Le second, Priority, maintient les engagements classiques — latence prévisible, débit garanti, accès prioritaire aux ressources de calcul. Les deux tiers couvrent les modèles Gemini 2.5 Pro et Flash.

En clair, Flex fonctionne comme les Spot Instances d'AWS ou les Preemptible VMs que Google propose déjà sur Compute Engine depuis des années. Le principe n'est pas nouveau. Ce qui l'est, c'est son application directe à l'inférence de modèles de langage via une API managée.

Les chiffres sur la table

Google affiche une réduction allant jusqu'à 50 % sur le coût par million de tokens d'entrée pour le tier Flex par rapport au tier Priority sur Gemini 2.5 Flash. Sur Gemini 2.5 Pro, la décote est du même ordre. Le tier Flex est gratuit pendant une période promotionnelle pour les développeurs sous un certain seuil d'utilisation — un mécanisme d'acquisition classique que Google pratique sur quasi tous ses services cloud depuis dix ans.

Google ne publie pas de chiffres absolus dans son annonce initiale pour le tier Flex — seulement des pourcentages de réduction. Les tarifs exacts sont renvoyés vers la page de pricing de Vertex AI, mise à jour avec un léger décalage. Le 10 juillet au soir, certains développeurs signalaient encore des incohérences entre la documentation et la console de facturation.

Le vrai destinataire

Le tier Flex ne vise pas les applications temps réel. Google le dit sans détour dans la documentation technique : il est conçu pour le traitement par lots, l'évaluation de modèles, le prototypage et les workloads tolérants à la latence. Autrement dit, tout ce qui tourne la nuit, tout ce qui peut attendre, tout ce qui ne sert pas un utilisateur final en direct.

C'est un positionnement qui parle directement aux équipes data et ML des entreprises qui testent massivement des prompts, qui font tourner des pipelines d'évaluation sur des milliers de cas, ou qui utilisent l'API pour du preprocessing documentaire à grande échelle. Pour ces usages, la latence par requête est sans importance. Le coût total du batch, lui, est scruté à l'euro près.

OpenAI avait introduit un mécanisme similaire avec son Batch API en avril 2024, offrant 50 % de réduction sur GPT-4o pour des requêtes traitées dans une fenêtre de 24 heures. Anthropic propose aussi des tarifs batch sur Claude. Google arrive donc sur un terrain déjà balisé. La différence revendiquée : l'intégration native avec Vertex AI et les pipelines GCP existants. Un argument qui pèse surtout pour les organisations déjà engagées dans l'écosystème Google Cloud.

La guerre du token pas cher

Il y a dix-huit mois, Google présentait Gemini comme un modèle « nativement multimodal » censé redéfinir les interactions homme-machine. Le discours du jour porte sur la réduction du coût par million de tokens. Le glissement est significatif. Il reflète un marché où la différenciation par la performance pure des modèles s'érode — GPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro se tiennent dans un mouchoir de poche sur les principaux benchmarks — et où le levier de conquête se déplace vers le prix, l'intégration et la fiabilité opérationnelle.

Amazon avait ouvert cette voie avec Nova, ses modèles maison sur Bedrock, positionnés dès le départ sur un argument de coût agressif. DeepSeek, côté chinois, a fait exploser les repères de prix début 2025 avec des modèles performants à une fraction du tarif des incumbents. La réponse de Google s'inscrit dans cette dynamique : si le token devient une commodité, autant offrir un prix plancher pour capter le volume.

Le problème, pour un DSI qui doit arbitrer, c'est que le coût du token ne dit rien du coût réel d'un déploiement. L'intégration, le monitoring, la gestion des erreurs sur un tier best-effort, le fallback vers Priority quand Flex ne répond pas dans les temps — tout cela génère de la complexité opérationnelle. Google ne fournit pour l'instant aucune métrique publique sur le taux de disponibilité effectif du tier Flex, ni sur la variance de latence observée en conditions de charge réelle.

Vertex AI, le vrai sujet

La tarification à deux niveaux est aussi un outil de segmentation pour Vertex AI. Google pousse les développeurs individuels et les startups vers Flex — coût bas, engagement faible — tout en réservant Priority aux clients enterprise prêts à payer pour du SLA. C'est le modèle freemium classique, appliqué à l'inférence LLM.

Thomas Kurian répète depuis 2023 que Google Cloud doit gagner la bataille de la plateforme IA, pas celle du modèle. La structure Flex/Priority est cohérente avec ce discours. Elle transforme Gemini en produit d'appel pour Vertex AI, qui facture ensuite le fine-tuning, le stockage des embeddings, les pipelines de RAG, le monitoring des modèles. Le token d'inférence devient le loss leader.

Reste un détail : Google Cloud représente environ 12 % du marché IaaS mondial, loin derrière AWS (31 %) et Microsoft Azure (25 %). La stratégie de plateforme ne fonctionne que si les clients sont déjà sur GCP ou prêts à y migrer. Pour ceux qui sont sur AWS et utilisent Bedrock, le prix du token Gemini est une donnée parmi d'autres, pas un argument décisif.

Le blog post d'annonce mentionne « des milliers de développeurs » utilisant déjà les API Gemini. Pas de chiffre de revenus. Pas de nombre de clients enterprise. Pas de comparaison avec les volumes d'appels API d'OpenAI, qui revendiquait 2 millions de développeurs sur sa plateforme fin 2024.

L'annonce a été publiée un jeudi en fin de journée, heure de Mountain View, entre deux keynotes Google Cloud Next déjà programmées. Le timing suggère un ajustement tarifaire tactique plus qu'un repositionnement stratégique majeur.

TL;DR

Google segmente la facturation de ses API Gemini en deux tiers — Flex (pas cher, sans SLA) et Priority (prix standard, latence garantie) — calquant sur l'inférence LLM un modèle éprouvé sur le compute cloud.

Le tier Flex offre jusqu'a 50 % de réduction sur les tokens Gemini 2.5 Pro et Flash, mais sans aucune garantie de latence ni de débit — conçu pour le batch, l'évaluation et le prototypage.
OpenAI et Anthropic proposent déjà des mécanismes batch similaires ; Google se différencie par l'intégration Vertex AI, un argument qui ne vaut que pour les organisations déjà sur GCP.
Le vrai enjeu n'est pas le prix du token mais la captation sur la plateforme : Gemini en produit d'appel, Vertex AI en centre de revenus.

Questions fréquentes

Le tier Flex est-il utilisable pour des applications en production servant des utilisateurs finaux?

Non. L'absence de SLA sur la latence et le débit le rend inadapté aux cas d'usage temps réel. Google le positionne explicitement pour le traitement par lots, l'évaluation de modèles et les workloads tolérants aux délais. Toute architecture de production nécessitant une réponse prévisible doit rester sur le tier Priority.

Comment cette tarification se compare-t-elle à ce que proposent OpenAI et Anthropic?

OpenAI propose une Batch API avec 50 % de réduction et une fenêtre d'exécution de 24 heures depuis avril 2024. Anthropic offre un mécanisme équivalent sur Claude. Les décotes sont comparables. La différence porte sur l'écosystème d'intégration — Vertex AI pour Google, Azure OpenAI Service pour Microsoft/OpenAI, AWS Bedrock pour Anthropic.

Est-ce que cette baisse de prix reflète une baisse réelle des coûts d'inférence chez Google?

En partie. Les TPU v5 et v6 réduisent le coût unitaire d'inférence, et le tier Flex exploite la capacité résiduelle des clusters, ce qui abaisse le coût marginal. Mais c'est aussi un choix commercial de compression des marges pour capter du volume sur Vertex AI, où la monétisation se fait sur les services adjacents.

Article rédigé par Hamadi Lanouar