Mistral AI pose ses données chez VAST Data : ce que le choix d'infrastructure dit de la course aux modèles

Mistral AI utilise la plateforme de VAST Data comme fondation de données pour ses workloads d'entraînement et d'inférence. L'annonce, formulée côté VAST Data, a été confirmée par Mistral sans que la startup française ne communique de détails techniques sur le dimensionnement du déploiement, le volume de données concerné, ni le nombre de nœuds de calcul alimentés.
VAST Data, fondée en 2016 à New York par Renen Hallak, vend un système de fichiers distribué — VAST Data Platform — conçu pour éliminer le tiering traditionnel entre stockage rapide et stockage froid. L'architecture repose sur un disaggregated shared-everything, avec un data store unifié capable de servir du NFS, du S3 et du stockage objet sur la même couche. L'argument principal : supprimer les goulets d'étranglement I/O qui ralentissent les pipelines d'entraînement quand les GPU attendent leurs données.
Timothée Lacroix, cofondateur et CTO de Mistral, a déclaré que la plateforme de VAST Data permettait à ses équipes de se concentrer sur la recherche plutôt que sur l'ingénierie d'infrastructure. Une phrase que tout fournisseur de stockage rêve d'obtenir d'un client vitrine.
Le marché du stockage IA en 2025
VAST Data a levé 118 millions de dollars en série E en décembre 2024, portant sa valorisation à 9,1 milliards de dollars. L'entreprise revendiquait alors plus de 600 clients, dont plusieurs hyperscalers non nommés. Dans le segment du stockage haute performance pour l'IA, elle fait face à WekaIO (qui a aussi levé lourdement et compte Meta parmi ses références), à DDN (historiquement dominant dans le HPC) et aux offres intégrées de NetApp et Dell, qui tentent de repositionner leurs architectures traditionnelles sur les workloads GPU.
Le choix de VAST Data par Mistral n'est pas techniquement surprenant. Les architectures de stockage parallèle à base de Lustre ou GPFS, encore omniprésentes dans les supercalculateurs publics comme Jean Zay, montrent leurs limites quand il s'agit de gérer simultanément l'ingestion de datasets multi-pétaoctets, le checkpointing fréquent des modèles et le serving d'inférence — trois workloads aux profils I/O radicalement différents. VAST Data promet de les unifier sur une seule couche. La promesse est séduisante. Sa tenue à l'échelle réelle des clusters d'entraînement de Mistral reste à documenter.
Ce que Mistral ne dit pas
Mistral AI a levé 640 millions d'euros en juin 2024, atteignant une valorisation de 5,8 milliards d'euros. L'entreprise a ensuite annoncé un nouveau tour de table en janvier 2025, dont les détails de montant n'ont pas été entièrement confirmés au moment de l'écriture. Ces fonds financent entre autres l'acquisition de capacité GPU — des clusters NVIDIA et des accords avec des cloud providers. Mais Mistral n'a jamais publié le nombre exact de GPU mobilisés pour l'entraînement de Mistral Large, Mixtral ou Codestral, ni le volume de données d'entraînement en pétaoctets. Les estimations d'analystes varient entre quelques milliers et plusieurs dizaines de milliers de GPU H100.
Sans ces chiffres, évaluer la pertinence du choix VAST Data par rapport à une alternative reste un exercice spéculatif. Un cluster de 2 000 GPU et un cluster de 20 000 GPU ne posent pas les mêmes problèmes de bande passante stockage. VAST Data, dans ses propres benchmarks, met en avant des performances à l'échelle du pétaoctet par seconde en débit agrégé. Le débit réel dépend de la topologie réseau, du ratio compute-to-storage et de la taille des fichiers — autant de paramètres que ni Mistral ni VAST n'ont rendus publics dans le cadre de ce partenariat.
Guillaume Lample, un autre cofondateur de Mistral, postait sur X la semaine précédant l'annonce une photo du bureau parisien du boulevard Haussmann à 23h40, avec cinq écrans allumés sur des courbes de loss. L'infrastructure qui alimente ces courbes, elle, reste dans l'ombre.
VAST Data côté go-to-market
Pour VAST Data, signer Mistral AI est un coup de communication autant qu'un contrat commercial. L'entreprise américaine, qui n'a pas de bureau en France à ce jour, cherche à s'implanter sur le marché européen de l'IA souveraine, un segment où les questions de localisation des données et de conformité RGPD ajoutent une couche de complexité. Mistral, souvent présenté comme le fleuron européen de l'IA générative, offre une légitimité immédiate.
Il y a dix-huit mois, VAST Data positionnait sa plateforme principalement sur le stockage de données non structurées à grande échelle — logs, images médicales, archives. Le pivot vers le discours AI-native, accéléré par la version 5.0 de la plateforme sortie début 2025, inclut désormais un moteur de base de données intégré (VAST DataBase) et des pipelines de données pensés pour alimenter directement des frameworks comme PyTorch. Le repositionnement est rapide. Les références clients de longue durée sur des workloads d'entraînement de LLM à grande échelle sont, elles, encore peu nombreuses.
Renen Hallak, CEO de VAST Data, a déclaré lors de l'annonce que le partenariat avec Mistral démontrait la capacité de sa plateforme à supporter les exigences des modèles de fondation les plus avancés. DDN, de son côté, fournit le stockage du supercalculateur Alps du CSCS à Zurich, sur lequel des modèles open source comparables sont entraînés. WekaIO équipe plusieurs clusters de Meta dédiés à LLaMA. La compétition se joue autant dans les salles machines que dans les communiqués de presse.
Côté DSI
Pour les responsables infrastructure qui évaluent des plateformes de stockage pour leurs propres projets d'IA — entraînement de modèles spécialisés, RAG à grande échelle, fine-tuning — le choix de Mistral est un signal de validation, pas un benchmark. VAST Data reste un fournisseur relativement jeune, avec un modèle de licensing propriétaire et une dépendance à du matériel flash spécifique (QLC NVMe). Le coût par téraoctet utile, une fois intégrés la redondance et le réseau, n'est pas publiquement documenté pour les configurations AI.
Les architectures concurrentes open source ou quasi-open source — MinIO pour le stockage objet S3-compatible, JuiceFS pour le système de fichiers distribué cloud-native — gagnent du terrain dans les entreprises qui veulent éviter le lock-in. Elles n'offrent pas les mêmes garanties de performance sur les workloads d'entraînement intensifs, mais elles posent une question que VAST Data devra finir par affronter : à quel prix la performance devient-elle un choix rationnel plutôt qu'un pari sur une marque.
Le contrat avec Mistral ne précise pas s'il inclut du support sur site en France, ni si les données d'entraînement de Mistral transitent par des nœuds VAST Data hébergés en colocation parisienne ou chez un cloud provider tiers. Pour une entreprise qui a fait de la souveraineté un argument commercial auprès de ses clients européens, le détail n'est pas négligeable.
TL;DR
Mistral AI adopte VAST Data comme plateforme de stockage pour l'entraînement de ses modèles, un choix qui valide l'architecture du challenger américain mais dont l'échelle réelle reste opaque.
• VAST Data, valorisé 9,1 milliards de dollars, fournit à Mistral une architecture unifiée NFS/S3 conçue pour éliminer les goulets I/O des pipelines d'entraînement GPU.
• Mistral n'a divulgué ni la taille de ses clusters, ni le volume de données concerné, ni la localisation de l'infrastructure VAST Data — des zones d'ombre pour un acteur de l'IA souveraine européenne.
• Le marché du stockage haute performance pour l'IA reste fragmenté entre VAST Data, WekaIO, DDN et les repositionnements de NetApp et Dell, sans benchmark public permettant une comparaison objective sur les workloads LLM.
Questions fréquentes
Qu'est-ce que l'architecture disaggregated shared-everything de VAST Data apporte concrètement par rapport à un Lustre ou un GPFS classique ?
Elle permet de servir simultanément des workloads aux profils I/O très différents — ingestion massive, checkpointing fréquent, serving d'inférence — sur une seule couche de stockage, sans tiering ni déplacement de données entre niveaux. Les architectures HPC traditionnelles nécessitent souvent des systèmes de fichiers séparés pour chaque usage, ce qui complexifie l'administration et crée des latences lors des transitions entre phases d'entraînement.
Ce partenariat change-t-il quelque chose pour les entreprises européennes qui évaluent des solutions de stockage IA ?
Il fournit une référence client de premier plan pour VAST Data en Europe, mais pas un benchmark. Sans données publiques sur les performances réelles, les coûts ou la localisation de l'infrastructure, les DSI doivent encore mener leurs propres évaluations. La question de la souveraineté des données et de la présence locale de VAST Data en France reste ouverte.
Pourquoi Mistral ne communique-t-il pas sur la taille de son infrastructure d'entraînement ?
La taille des clusters GPU et le volume de données d'entraînement sont considérés comme des informations compétitives sensibles par les labos d'IA. Publier ces chiffres permettrait aux concurrents d'estimer les coûts d'entraînement, les capacités de scaling et indirectement la qualité atteignable des modèles. Cette opacité est standard dans l'industrie — OpenAI, Anthropic et Google DeepMind appliquent la même logique.