← AI War Room
Intelligence artificielle

En 72 heures, la Chine a montré qu'elle n'a plus besoin ni des GPU Nvidia ni des labs fermés américains

Tech4B2B · · 4 min (mis à jour le )
Illustration : En 72 heures, la Chine a montré qu'elle n'a plus besoin ni des GPU Nvidia ni des labs fermés américains
  • Sujet: En 72 heures, la Chine a montré qu'elle n'a plus besoin ni des GPU Nvidia ni des labs fermés américains
  • Date:
Entre le 27 et le 30 juin 2026, deux annonces chinoises distinctes ont convergé vers le même message stratégique. DeepSeek a publié en open source DSpark, un framework d'accélération d'inférence qui augmente la vitesse de génération de 60 à 85 % sans réentraînement ni nouveau matériel. Trois jours plus tard, Meituan — une entreprise de livraison de repas — a dévoilé LongCat-2.0, un modèle MoE de 1,6 trillion de paramètres entraîné intégralement sur un cluster de 50 000 puces chinoises, sans une seule puce Nvidia. Le modèle occupait déjà la première place d'OpenRouter depuis deux mois sous un pseudonyme. Les deux annonces tombent une semaine après que Washington a restreint l'accès à GPT-5.6 et coupé les modèles Anthropic Fable 5 et Mythos 5 pour l'ensemble du monde. L'écart entre la stratégie de contrôle américaine et la stratégie de contournement chinoise n'a jamais été aussi visible.

DeepSeek a publié DSpark le 27 juin — pas un nouveau modèle, mais une couche d'optimisation d'inférence appliquée à ses checkpoints V4 existants. DSpark accélère les vitesses de génération par utilisateur de 60 % à 85 % sur DeepSeek-V4 Flash et de 57 % à 78 % sur la variante Pro, surpassant les méthodes d'accélération précédentes incluant Eagle-3 et DFlash.

DSpark utilise une méthode "semi-parallèle" qui combine génération parallèle à haut débit et vérification adaptative. Au lieu de générer et vérifier un token à la fois, DSpark génère spéculativement plusieurs tokens candidats simultanément, puis vérifie sélectivement uniquement les suppositions prometteuses. Le texte généré reste identique car le grand modèle effectue toujours la vérification finale. DSpark change la façon dont les tokens sont produits, pas ce que le modèle dit finalement.

Selon le niveau de concurrence, DeepSeek rapporte des améliorations de débit allant de 51 % à 400 %. DSpark a déjà été déployé en trafic réel, pas seulement benchmarké en laboratoire.

Le toolchain DeepSpec simplifie l'optimisation, permettant à de petits développeurs de faire tourner des services de grands modèles rapides et peu coûteux. Cette annonce marque une étape significative dans la réduction des barrières techniques. DeepSeek a testé le framework sur plusieurs modèles open source, dont Gemma de Google DeepMind et la famille Qwen d'Alibaba — suggérant que le framework pourrait bénéficier à des développeurs au-delà de l'écosystème DeepSeek.

Le contexte que DeepSeek ne mentionne pas dans son papier de recherche

DeepSeek continue d'opérer sous des restrictions américaines à l'export qui limitent l'accès de la Chine aux puces IA les plus avancées. Améliorer l'efficacité logicielle offre une voie pour livrer une performance compétitive sans dépendre uniquement du matériel le plus récent. DSpark n'est pas qu'une optimisation d'ingénierie. C'est une réponse structurelle à une contrainte géopolitique — extraire plus de performance du matériel disponible plutôt que de compter sur du matériel qu'on ne peut pas acheter.

Trois jours plus tard, Meituan

Meituan a ouvert le code source de LongCat-2.0 le 30 juin, un modèle de langage doté de 1,6 trillion de paramètres et d'une fenêtre de contexte d'un million de tokens. L'échelle le place au niveau du dernier modèle phare de DeepSeek, V4-pro, lancé en avril.

Meituan affirme que LongCat-2.0 est le premier modèle à un trillion de paramètres de l'industrie à avoir complété l'intégralité de son entraînement et de son inférence sur un cluster de calcul domestique de 50 000 cartes. Alors que DeepSeek-V4-pro s'appuyait sur des puces domestiques uniquement pour l'inférence, LongCat-2.0 a utilisé du matériel domestique pour l'inférence et le pré-entraînement. C'est la distinction technique qui change la portée du signal : DeepSeek avait montré qu'on pouvait servir un modèle sur puces chinoises. Meituan montre qu'on peut l'entraîner entièrement dessus.

L'architecture repose sur une optimisation agressive de la sparsité Mixture-of-Experts, portant le nombre total de paramètres à 1,6 trillion tout en limitant le calcul actif à une moyenne de 48 milliards de paramètres par token. Selon la complexité structurelle d'une requête, l'activation dynamique du modèle varie entre 33 et 56 milliards de paramètres.

Une entreprise de livraison de repas et de services à la demande a construit l'un des modèles d'IA les plus utilisés au monde sur un cluster de 50 000 à 60 000 puces produites domestiquement. Aucun GPU Nvidia n'était impliqué.

Owl Alpha — le pseudonyme qui dominait déjà le marché

Meituan a dévoilé LongCat-2.0 comme étant le moteur computationnel derrière "Owl Alpha", le modèle furtif anonyme qui occupait depuis deux mois les classements mondiaux de développeurs sur OpenRouter. Pendant sa résidence anonyme, Owl Alpha a traité environ 10,1 trillions de tokens mensuels — une moyenne de 559 milliards de tokens par jour — représentant une explosion de 242 % en glissement mensuel.

Les résultats de benchmark montrent un score de 59,5 sur SWE-Bench Pro, devançant le 58,6 de GPT-5.5. Le modèle obtient 70,8 sur Terminal-Bench 2.1 et 77,3 sur SWE-Bench Multilingual.

La séquence qui donne son sens à la coïncidence

Suite à une demande gouvernementale américaine, OpenAI a été contraint de limiter l'accès à ses nouveaux modèles GPT-5.6, tandis qu'Anthropic avait précédemment reçu l'ordre des États-Unis de restreindre l'accès à ses derniers modèles Claude Fable 5 / Mythos 5, qu'elle a entièrement retirés en réponse.

Un nombre croissant de technologues, d'activistes et d'experts de l'industrie avertissent que ces manœuvres réglementaires défensives ont involontairement produit l'effet inverse. En verrouillant les modèles fermés occidentaux et en faisant grimper les coûts d'API, le gouvernement américain a laissé une large fenêtre opérationnelle aux développeurs mondiaux à la recherche d'alternatives abordables et performantes, comme celles trouvées dans les modèles open source chinois tels que Meituan LongCat-2.0.

La séquence calendaire ne laisse pas beaucoup de place à l'ambiguïté. Washington restreint ses propres modèles frontier le 25-26 juin. DeepSeek publie un outil qui rend n'importe quel modèle existant plus rapide à servir le 27 juin. Meituan dévoile un modèle entraîné sans aucune dépendance à Nvidia le 30 juin. Trois acteurs différents, une seule direction.

Ce que ça change pour une entreprise européenne

Aucune des deux annonces ne porte sur un raisonnement supérieur ou une capacité nouvelle. C'est le point. DSpark ne rend pas DeepSeek plus intelligent — il le rend moins cher à servir. LongCat-2.0 n'invente pas une nouvelle frontière de capacité — il prouve qu'on peut atteindre la frontière actuelle sans le matériel que Washington contrôle. La licence MIT permissive autorise les développeurs à modifier, redistribuer et intégrer le modèle dans des logiciels propriétaires sans obligation de publier les travaux dérivés en open source — l'une des sorties IA open source les plus flexibles commercialement de l'année.

Pour une DSI européenne, la proposition de valeur n'est plus théorique. Un modèle de niveau frontier, sous licence MIT, déployable on-premises, sans dépendance à un fournisseur américain soumis à des restrictions d'export imprévisibles — c'est une option d'architecture concrète, pas une promesse de roadmap. La question de souveraineté numérique, jusqu'ici centrée sur les data centers et les clouds européens, se déplace désormais vers le choix du modèle lui-même.

Cela ne résout pas les questions de gouvernance des données, de conformité réglementaire chinoise sur les modèles eux-mêmes, ni de confiance dans les biais d'entraînement d'un modèle développé sous supervision de l'État chinois. Mais le calcul coût-performance-souveraineté penche désormais dans une direction qu'il ne penchait pas il y a six mois.

TL;DR

En une semaine, DeepSeek et Meituan ont démontré que la Chine peut produire des modèles IA de niveau frontier sans dépendre ni des puces Nvidia ni des labs fermés américains — un signal qui arrive exactement au moment où Washington restreint l'accès à ses propres modèles les plus avancés.

  • DSpark de DeepSeek accélère l'inférence de 60 à 85 % sans réentraînement, transformant une contrainte d'accès aux puces avancées en avantage d'efficacité logicielle reproductible sur n'importe quel modèle, y compris Gemma et Qwen.
  • LongCat-2.0 de Meituan — 1,6 trillion de paramètres, entraînement et inférence entièrement sur 50 000 puces chinoises, zéro GPU Nvidia — dominait déjà OpenRouter sous pseudonyme avec 10,1 trillions de tokens mensuels avant même la révélation de son identité.
  • Pour les entreprises européennes, ces deux sorties sous licence MIT déplacent le débat de souveraineté numérique du choix du cloud vers le choix du modèle lui-même — une option d'architecture concrète qui n'existait pas avec cette crédibilité technique il y a six mois.

Questions fréquentes

DSpark et LongCat-2.0 sont-ils utilisables en production par une entreprise européenne dès maintenant ?

Techniquement oui — les deux sont sous licence MIT, déployables on-premises, avec checkpoints disponibles sur Hugging Face et code sur GitHub. Opérationnellement, ça nécessite une équipe MLOps capable d'opérer un modèle de cette taille (1,6 trillion de paramètres pour LongCat-2.0) sans le support commercial qu'offrent les fournisseurs américains. Pour les workloads de codage agentique à fort volume, l'évaluation mérite un pilote technique — les benchmarks SWE-Bench Pro sont compétitifs, mais auto-déclarés par Meituan.

Que dit la dépendance chinoise aux puces domestiques sur la fiabilité à long terme de l'écosystème Nvidia ?

Le signal est réel mais partiel. LongCat-2.0 prouve qu'un entraînement à cette échelle est possible sans Nvidia — pas que c'est optimal en coût ou en temps d'entraînement par rapport à un cluster H100/H200. Les détails sur le ratio coût-performance du cluster de 50 000 puces chinoises ne sont pas publiés. Ce qui est documenté, c'est que la dépendance structurelle à Nvidia pour produire un modèle frontier n'est plus une nécessité absolue — un changement de paradigme stratégique, indépendamment du rapport coût-efficacité actuel.

Ces sorties open source chinoises posent-elles des risques de sécurité ou de conformité spécifiques pour un déploiement enterprise en Europe ?

Oui, à examiner au cas par cas. Les modèles open source sous licence MIT ne contiennent pas de backdoor identifiée dans les analyses publiques actuelles, mais l'audit indépendant des poids d'un modèle de 1,6 trillion de paramètres reste limité. Les questions pertinentes pour un RSSI : provenance et biais des données d'entraînement, conformité RGPD si fine-tuné sur des données européennes, et absence de garanties contractuelles de support qu'offrirait un fournisseur commercial occidental. Ces questions ne disqualifient pas l'usage — elles définissent le périmètre de diligence requis avant un déploiement en production sur des données sensibles.

Le brief tech qui compte
Chaque matin à 7h, les 5 signaux tech B2B à ne pas manquer.