Cerebras annonce des performances record 7X plus rapide que les clusters GPU traditionnels. Le marché attend les factures.

Sujet: Cerebras annonce des performances record 7X plus rapide que les clusters GPU traditionnels. Le marché attend les factures.
Date: 22 mai 2026

Cerebras affirme que ses puces wafer-scale exécutent le modèle Kimi K2.6 de Moonshot AI - mille milliards de paramètres - près de sept fois plus vite que les clusters GPU traditionnels. L'annonce survient quelques semaines après une introduction en Bourse tonitruante et vise frontalement Nvidia sur le terrain de l'inférence entreprise.Reste à savoir si les benchmarks maison se traduiront en contrats réels, dans un marché où les DSI achètent des garanties de production, pas des records de vitesse.

Le chiffre circule depuis quelques jours dans les cercles infrastructure : 6,7 fois. C'est le ratio de performance que Cerebras revendique pour l'inférence du modèle Kimi K2.6 de Moonshot AI, un mixture-of-experts à mille milliards de paramètres, par rapport à des configurations GPU cloud non détaillées avec précision. La démonstration a été faite sur le CS-3, la troisième génération de la puce wafer-scale de Cerebras, ce disque de silicium de la taille d'une assiette qui concentre 900 000 cœurs sur un seul wafer de 300 mm.

Andrew Feldman, le CEO de Cerebras, a présenté ces résultats comme une rupture dans l'inférence de modèles massifs.

« Nous avons montré qu'un seul système CS-3 peut servir un modèle à mille milliards de paramètres à des vitesses qu'aucun cluster GPU n'atteint aujourd'hui. »

La comparaison implicite vise les configurations H100 et B200 de Nvidia, sans que Cerebras ne publie de benchmark tiers audité sur ces architectures concurrentes.

Moonshot AI, la startup chinoise derrière Kimi, a développé K2.6 comme un modèle mixture-of-experts - une architecture où seule une fraction des paramètres est activée pour chaque requête. Ce détail compte : les performances d'inférence sur un MoE ne sont pas transposables à un modèle dense de taille équivalente. Cerebras ne précise pas combien d'experts sont activés simultanément dans la configuration testée, ni le ratio de paramètres effectivement sollicités par requête.

Après l'IPO

L'annonce arrive dans un timing très particulier. Cerebras a réalisé son introduction en Bourse en avril 2025, une opération longtemps retardée par des questions du régulateur américain sur sa dépendance à un unique client - le groupe saoudien G42 représentait plus de 80 % de son chiffre d'affaires en 2023. La diversification client est devenue un impératif existentiel pour justifier la valorisation post-IPO, qui tourne autour de 8 milliards de dollars.

Afficher un partenariat technique avec Moonshot AI, l'un des rares laboratoires chinois à disposer d'un modèle trillion-paramètres opérationnel, sert cette narration. Mais un benchmark conjoint n'est pas un contrat d'infrastructure pluriannuel. Et la question que posent les analystes depuis l'IPO reste entière : qui, en dehors de G42, achète du Cerebras en production ?

Le rapport S-1 de Cerebras mentionnait un chiffre d'affaires de 136 millions de dollars en 2024 - une fraction de ce que Nvidia génère en un trimestre sur ses seuls GPU data center (26 milliards au Q4 2025). Le ratio donne une idée de l'écart d'adoption.

La mémoire, encore

L'avantage structurel de Cerebras sur l'inférence de très grands modèles tient à son architecture mémoire. Le CS-3 embarque 44 Go de SRAM on-wafer avec une bande passante agrégée de 21 Po/s - des ordres de grandeur au-dessus de ce qu'offre la HBM d'un GPU individuel. Sur un modèle MoE, où le goulot d'étranglement est souvent le chargement des poids des experts activés, cette bande passante fait une différence mécanique.

Nvidia attaque ce problème différemment avec NVLink et les nouvelles interconnexions des racks GB200 NVL72, qui permettent de distribuer un modèle massif sur 72 GPU avec une latence réduite. Jensen Huang a répété au Computex 2025 que « le data center est l'ordinateur » - la réponse de Nvidia au wafer-scale, c'est le rack-scale.

Les deux approches résolvent le même problème par des voies opposées. Mais l'une dispose d'un écosystème CUDA de quinze ans et de millions de développeurs formés. L'autre demande de réécrire les pipelines d'inférence pour une architecture propriétaire, avec un fournisseur unique.

2 100 tokens par seconde

Le chiffre de débit avancé par Cerebras - plus de 2 100 tokens par seconde en sortie sur Kimi K2.6 - est impressionnant sur le papier. Il dépasse largement ce que les clouds GPU publics affichent aujourd'hui sur des modèles de cette taille. Mais il faut noter que Cerebras mesure ce débit sur son propre service d'inférence, dans des conditions qu'il contrôle entièrement : taille de batch, longueur de contexte, profil de requêtes.

Les benchmarks publics d'inférence - ArtificialAnalysis, LMSYS - n'ont pas encore intégré de résultats Cerebras sur K2.6. Tant que c'est le cas, le chiffre reste une donnée fournisseur.

La démonstration a été réalisée dans les locaux de Cerebras à Sunnyvale, un bâtiment sans signalétique extérieure situé à trois rues du campus historique de Yahoo.

Pour un DSI qui évalue ses options d'inférence sur des modèles massifs, la question n'est pas de savoir si Cerebras est rapide. C'est de savoir à quel coût par token, avec quelle redondance, quelle SLA, et quel plan B si la relation fournisseur se complique. Cerebras ne publie pas de grille tarifaire pour l'inférence de modèles tiers sur son cloud. Les prix sont négociés au cas par cas.

Nvidia a ses propres fragilités - les délais de livraison des Blackwell, les tensions d'approvisionnement TSMC, la dépendance à trois hyperscalers pour plus de 40 % de son chiffre data center. Mais un DSI qui choisit Nvidia choisit aussi AWS, Azure et GCP comme couches intermédiaires, avec la liquidité et la portabilité que cela implique. Choisir Cerebras, c'est aujourd'hui choisir Cerebras.

Feldman, 2023

En septembre 2023, Andrew Feldman déclarait que l'entraînement de modèles - pas l'inférence - était « le marché qui compte ». Le pivot vers l'inférence comme axe de communication principal date de mi-2024, quand il est devenu évident que le marché de l'entraînement resterait dominé par Nvidia et ses écosystèmes hyperscaler pour encore plusieurs années. La narration a changé ; la puce, elle, est fondamentalement la même.

Ce repositionnement n'invalide pas les résultats techniques. Il les contextualise. Cerebras cherche un marché où sa différence architecturale se convertit en revenus récurrents. L'inférence de très grands modèles est ce marché — si les entreprises déploient effectivement des modèles à mille milliards de paramètres en production, ce qui reste marginal aujourd'hui.

La plupart des déploiements entreprise tournent sur des modèles entre 7 et 70 milliards de paramètres, souvent distillés ou quantizés. À cette échelle, un GPU H100 suffit. L'avantage de Cerebras se matérialise sur des modèles que presque personne n'exécute encore en production.

« On construit pour le marché de 2027, pas pour celui de 2025 », a dit Feldman lors d'un entretien récent. Les investisseurs post-IPO espèrent qu'il a raison.

TL;DR

Cerebras revendique un facteur 6,7x sur l'inférence d'un modèle trillion-paramètres face aux GPU clouds, mais le benchmark est interne et le marché des modèles de cette taille reste embryonnaire en production.

Le CS-3 de Cerebras exécute le modèle MoE Kimi K2.6 (mille milliards de paramètres) à plus de 2 100 tokens/s, un débit inédit mais mesuré dans les conditions du fournisseur, sans audit tiers public.
L'annonce intervient après une IPO valorisant Cerebras à 8 milliards de dollars, alors que 80 % de son chiffre d'affaires dépendait encore d'un seul client en 2023 — la diversification reste le vrai test.
Pour les DSI, l'enjeu n'est pas la vitesse brute mais le coût par token, la portabilité et le risque fournisseur unique face à l'écosystème Nvidia-CUDA adossé aux trois grands clouds.

Questions fréquentes

Pourquoi Cerebras est-il plus rapide sur ce type de modèle?

L'architecture wafer-scale du CS-3 intègre 44 Go de SRAM avec une bande passante de 21 Po/s directement sur la puce, éliminant les allers-retours mémoire qui ralentissent les clusters GPU sur les modèles mixture-of-experts. L'avantage est mécanique sur les très grands modèles, beaucoup moins évident sur les modèles de 70 milliards de paramètres ou moins que la plupart des entreprises utilisent aujourd'hui.

Ces performances sont-elles vérifiables de manière indépendante?

Pas à ce stade. Le benchmark a été réalisé par Cerebras sur son propre cloud d'inférence, dans des conditions non détaillées publiquement (taille de batch, longueur de contexte, configuration GPU de référence). Aucun organisme tiers ni plateforme de benchmark publique n'a encore reproduit ces résultats.

Quel impact concret pour une entreprise qui évalue ses options d'inférence IA?

Limité à court terme. Les déploiements entreprise de modèles à mille milliards de paramètres restent rares. L'avantage Cerebras se matérialise sur un segment de marché encore émergent, avec un risque de dépendance fournisseur élevé et l'absence de grille tarifaire publique. La comparaison pertinente pour la plupart des DSI reste entre GPU cloud classiques et modèles plus compacts optimisés.

Article rédigé par Hamadi Lanouar