95% des dépenses GPU enterprise sont gaspillées (utilisation à 5%)

Cast AI publie chaque année depuis trois ans son rapport sur l'utilisation des ressources Kubernetes. Cette édition 2026 couvre les données du 1er janvier au 31 décembre 2025, avec une extension jusqu'en avril 2026 pour les métriques GPU. L'ensemble du corpus — 23 000 clusters sur AWS, Azure et GCP — a été mesuré avant activation des fonctionnalités d'optimisation de Cast AI. C'est un point de méthodologie important : il s'agit d'une baseline, pas d'une mesure en conditions normales d'usage.
Le chiffre central est 5 %. C'est l'utilisation GPU moyenne constatée sur l'ensemble de ces clusters enterprise. CPU : 8 %, en baisse depuis 10 % l'année précédente. Mémoire : 20 %, en baisse depuis 23 %. Le surprovisionnement CPU est passé de 40 % à 69 % en douze mois. Le surprovisionnement mémoire atteint 79 %. Les organisations paient pour une infrastructure que leurs workloads ne consomment même pas en totalité — avant de parler d'utilisation effective.
Laurent Gil, co-fondateur et président de Cast AI, formule l'enjeu ainsi : "A GPU sitting idle costs dollars per hour. A CPU sitting idle costs cents. And 95% of GPU capacity is doing nothing."
La formule est juste sur l'économie comparée. Un GPU H100 inactif coûte entre 2 et 7 dollars de l'heure selon le fournisseur et le mode de réservation. Un cœur CPU inactif coûte des centimes. À 5 % d'utilisation, le coût effectif par token produit ou par tâche accomplie est vingt fois supérieur au coût théorique d'un cluster bien dimensionné.
Pourquoi la tendance s'aggrave
Le rapport identifie une mécanique précise : les équipes padent leurs requêtes de ressources pour éviter les throttlings et les OOM kills. L'autoscaler Kubernetes interprète ces requêtes gonflées comme de la demande réelle et provisionne des nodes en conséquence. L'écart entre ce qui est demandé et ce qui est consommé devient structurel. Personne ne revient revoir les configurations après déploiement. Les Helm charts utilisent des estimations conservatrices uniformes. Le coût du padding est invisible pour l'équipe qui gère la plateforme.
Cast AI cite un exemple direct : un cluster analysé affichait 40 à 50 OOM kills par intervalle de mesure malgré un surprovisionnement généreux. Le surprovisionnement ne résout pas les problèmes de fiabilité — il les masque et les déplace. L'équipe qui a arrêté de surprovisionner n'a pas obtenu moins de fiabilité. Elle a obtenu plus.
Le comportement de hoarding aggrave la boucle. Les équipes réservent de la capacité GPU par peur de ne pas en trouver lors du prochain besoin — une crainte légitime en 2023 et 2024, quand les H100 étaient rationnés. Cette peur alimente la rareté perçue, qui maintient les prix, qui devrait inciter à optimiser mais n'y incite pas, parce que les équipes infrastructure et les équipes finance ne partagent pas les mêmes dashboards. Moins de 2 % des GPU tournaient sur des instances Spot en 2025, largement par manque de disponibilité pour les hardware haut de gamme.
Le contexte prix qui change tout
Depuis le lancement d'EC2 en 2006, les prix du compute cloud n'avaient jamais augmenté. En janvier 2026, AWS a relevé de 15 % le prix des H200 Capacity Blocks. La rupture est documentée, précise, et directement liée à la pression sur l'offre de GPU haute performance. Ce n'est pas une correction marginale : c'est la fin d'une hypothèse que vingt ans d'infrastructure cloud avaient ancrée dans les modèles financiers des DSI. La base de référence pour les calculs de TCO GPU est en train de changer.
La conjonction est mécanique : des GPU qui coûtent plus cher, utilisés à 5 % de leur capacité. Une organisation qui tourne à ce niveau d'utilisation paie, pour chaque token produit ou chaque tâche accomplie, l'équivalent d'un siège d'avion plein tarif dans un vol à trois places occupées.
Ce que disent les analystes tiers
Le chiffre de 5 % provient d'un rapport publié par Cast AI, qui vend des logiciels d'optimisation Kubernetes. Le biais de source est structurel. L'intérêt commercial de Cast AI est de montrer que les clusters sont mal optimisés. Les mesures sont prises avant activation de ses propres outils. Il faut le noter, sans en déduire que les données sont fausses.
Les analystes tiers nuancent sans contredire. Holger Mueller (Constellation Research) estime que la mesure capture un slice spécifique des workloads enterprise - pas nécessairement l'image complète. Chirag Nag (Data Center Knowledge) situe l'utilisation entre 15 % et 25 % dans les clusters Kubernetes orientés IA qu'il a observés directement. Dans les grands data centers d'IA optimisés - hyperscalers inclus - l'utilisation monte à 60-70 %, selon les mêmes sources. Meta's Research SuperCluster affichait 83 à 85 % d'utilisation GPU selon une étude arXiv. Salesforce a rapporté être passé de 48 % à près de 100 % après optimisation des systèmes de stockage et d'ordonnancement sur Google Cloud.
L'écart entre 5 % et 60-70 % n'invalide pas le chiffre de Cast AI. Il décrit deux populations différentes : les clusters enterprise Kubernetes standards, souvent sous-gérés, et les infrastructures d'IA spécialisées, construites et opérées pour l'optimisation. La plupart des entreprises qui ont acheté des GPU en 2024-2025 sont dans la première catégorie.
Ce que ça signifie pour la décision d'achat
Les signaux de marché sont cohérents avec les mesures. Dans le Q1 2026 AI Infrastructure & Compute Market Tracker de VentureBeat (53 répondants en janvier, 39 en février), la disponibilité GPU comme critère de choix fournisseur est passée de 20,8 % à 15,4 % en un trimestre. Le coût par inférence / TCO a bondi de 34 % à 41 %, dépassant la performance comme priorité. L'optimisation des coûts est la catégorie qui a vu la plus forte augmentation de budget planifié dans l'enquête.
La phase d'accumulation - réserver de la capacité avant d'en avoir besoin, par peur de la pénurie - est terminée pour un segment croissant du marché. La phase suivante est celle du rendement : que produit effectivement l'infrastructure déjà achetée ?
Seuls 14 % des organisations considèrent leur architecture data comme prête pour l'IA, selon HyperFrame Research. McKinsey estime que 62 % des organisations expérimentent ou pilotent des agents IA, que 23 % les déploient à l'échelle dans au moins une fonction, et que moins de 10 % ont atteint le déploiement enterprise-wide. Ces trois chiffres expliquent le 5 % mieux que n'importe quel défaut d'orchestration : la plupart des GPU enterprise ne tournent pas à leur capacité parce que les workloads IA de production ne sont pas encore là pour les alimenter. L'infrastructure a précédé le cas d'usage.
Pour les DSI qui ont engagé des dépenses GPU en 2024-2025, la question n'est pas de savoir si le chiffre de 5 % s'applique exactement à leur contexte. La question est : à quel pourcentage d'utilisation fonctionnent réellement leurs clusters IA, et quel est leur coût par token ou par tâche accomplie à ce niveau d'utilisation ? Si la réponse n'est pas disponible immédiatement, c'est que l'outillage d'observabilité est insuffisant - avant même de parler d'optimisation.
TL;DR
Les GPU enterprise tournent à 5 % d'utilisation moyenne pendant qu'AWS vient d'augmenter leurs prix de 15 % — première hausse depuis vingt ans. La question n'est plus l'accès à la puissance de calcul, c'est ce qu'on en fait.
- Le rapport Cast AI mesure l'utilisation GPU à 5 % sur 23 000 clusters production — soit 20 fois moins que la capacité provisionnée. Le CPU est à 8 %, la mémoire à 20 %, tous deux en baisse sur un an. Source à intérêt commercial direct, mesures prises avant optimisation par l'éditeur — le biais est documenté, les chiffres ne sont pas contredits par les analystes tiers.
- L'infrastructure a précédé les cas d'usage : McKinsey estime que moins de 10 % des organisations ont atteint un déploiement IA enterprise-wide, et HyperFrame Research que seulement 14 % considèrent leur architecture data comme IA-ready. Des GPU achetés pour des workloads qui n'existent pas encore en production seront nécessairement à 5 %.
- Le signal marché confirme la bascule : la disponibilité GPU comme critère de choix fournisseur a chuté de 20,8 % à 15,4 % en un trimestre (VentureBeat Q1 2026), pendant que le coût par inférence/TCO montait de 34 % à 41 %. La phase d'accumulation est terminée ; la phase du rendement commence.
Questions fréquentes
Le chiffre de 5 % s'applique-t-il à tous les environnements GPU enterprise?
Non — il mesure des clusters Kubernetes non optimisés sur les trois grands hyperscalers. Les grands data centers IA spécialisés tournent à 60-70 %. Les équipes ayant investi dans l'automatisation de l'ordonnancement rapportent des taux proches de 30-50 %. Le 5 % est un plancher représentatif d'une large population de clusters enterprise standard — pas un plafond pour ceux qui ont mis en place des pratiques d'optimisation continues.
Comment mesurer l'utilisation GPU de ses propres clusters sans outil tiers?
NVIDIA DCGM (Data Center GPU Manager) est l'outil de référence, disponible gratuitement, qui expose les métriques d'utilisation GPU au niveau du processeur, de la mémoire et des transferts PCIe. Il s'intègre nativement à Prometheus/Grafana. L'absence de ce monitoring dans un environnement GPU est le premier signal d'alerte — si l'utilisation n'est pas mesurée, elle n'est pas gérée.
Faut-il acheter moins de GPU ou mieux utiliser ceux qu'on a déjà?
La réponse dépend du stade de maturité des workloads IA. Si les cas d'usage production ne sont pas encore définis, acheter plus de GPU aggrave le problème. Si les workloads existent mais que l'utilisation est basse, le problème est d'orchestration — ordonnancement, partage de GPU, politique de Spot. Le break-even financier entre cloud GPU et on-premise se situe à partir de 70-80 % d'utilisation soutenue selon les analyses de coût de marché actuelles — en dessous, le cloud est moins cher, y compris après la hausse des prix H200.