Microsoft lance ses propres modèles d'IA et commence à découpler son avenir de celui d'OpenAI

Les trois modèles annoncés portent des noms internes qui ne circulent pas encore largement : un modèle de speech-to-text présenté comme plus rapide et plus précis que Whisper dans les benchmarks maison, un modèle de synthèse vocale, et un modèle de génération d'images intégré à Designer et aux outils Microsoft 365. Aucun des trois ne porte la marque OpenAI. Ils sont développés par Microsoft AI, l'entité de recherche dirigée par Mustafa Suleyman depuis son arrivée en mars 2024.
Le modèle de transcription a été testé en interne sur les flux Teams depuis plusieurs mois. Microsoft revendique une latence réduite de 40 % par rapport à Whisper large-v3 sur les appels multilingues — un chiffre difficile à vérifier tant que les benchmarks indépendants n'ont pas confirmé. Le modèle de voix, lui, alimente déjà certaines fonctionnalités de Copilot dans les applications Office.
Le mid-class model
L'annonce la plus révélatrice n'est peut-être pas un modèle en particulier, mais un concept. Satya Nadella a utilisé le terme « mid-class model » pour décrire une catégorie de modèles que Microsoft va développer en propre : pas les plus puissants, pas les plus légers, mais ceux qui tiennent sur une infrastructure raisonnable et répondent à 80 % des cas d'usage enterprise. Le terme n'existait pas dans le vocabulaire Microsoft il y a six mois.
En creux, c'est un aveu. Les modèles frontier d'OpenAI — GPT-4o, le futur GPT-5 — coûtent cher à inférer. Microsoft paye à la fois pour le partenariat et pour le compute. Dans un contexte où les dépenses d'infrastructure Azure explosent (plus de 53 milliards de dollars en capex annoncés pour l'exercice fiscal 2025, dont une part croissante consacrée à l'IA), trouver un point d'équilibre entre capacité et coût devient une contrainte opérationnelle, pas seulement un choix architectural.
Google, de son côté, a fait un choix différent : une gamme complète de modèles Gemini, du Nano au Ultra, développés en interne dès le départ. Amazon a ses propres modèles Nova. Meta distribue Llama en open source. Microsoft était, jusqu'ici, le seul hyperscaler à ne pas disposer d'une famille de modèles fondationnels maison pour ses produits phares.
13 milliards
Le partenariat avec OpenAI n'est pas remis en cause publiquement. Kevin Scott, CTO de Microsoft, a déclaré au Build que « la relation avec OpenAI reste la plus importante de l'industrie ». Mais les termes de l'accord ont évolué. OpenAI a restructuré son entité commerciale, avec une transition vers un modèle for-profit qui modifie les conditions de la licence exclusive dont bénéficiait Microsoft sur les modèles GPT. Les deux entreprises ont renégocié en silence certaines clauses début 2025.
Sam Altman, en janvier, avait déclaré que « Microsoft est notre partenaire de compute le plus important, mais nous devons aussi être capables de servir nos propres clients directement ».
La mise en ligne de l'API ChatGPT Enterprise, vendue hors Azure, illustre cette divergence d'intérêts. OpenAI a ses propres ambitions de plateforme. Microsoft aussi.
Un dirigeant d'un éditeur SaaS européen, client Azure OpenAI Service depuis 2023, résumait la situation en marge du Build : « On avait choisi Azure parce que c'était le seul moyen fiable d'accéder à GPT-4 avec un SLA entreprise. Maintenant, OpenAI vend directement, Google pousse Gemini dans Workspace, et Microsoft nous dit qu'ils ont aussi leurs propres modèles. On doit réévaluer notre dépendance, pas la leur. »
Ce que les modèles ne font pas
Aucun des trois modèles annoncés ne couvre le raisonnement généraliste. Microsoft ne prétend pas remplacer GPT-4o ou GPT-5 pour les tâches complexes de Copilot — la rédaction longue, l'analyse de documents multi-sources, le code avancé. Les modèles propriétaires sont positionnés sur des tâches spécialisées : transcription, voix, image. Des briques, pas un socle.
Le mid-class model, en revanche, vise un périmètre plus large. Microsoft n'a communiqué ni sa taille en paramètres, ni sa date de disponibilité générale, ni les benchmarks sur lesquels il sera évalué. L'annonce tient davantage de la déclaration d'intention que du lancement produit. Ce qui, à Redmond, est souvent une manière de tester la réaction du marché avant de s'engager sur un calendrier.
Rappel utile : en 2023, Microsoft avait annoncé Kosmos, un modèle multimodal développé en interne. Il n'a jamais été intégré dans un produit grand public. Phi-2, puis Phi-3, les petits modèles de recherche Microsoft, ont trouvé leur place dans des cas d'usage edge et embarqué, mais pas dans la pile Copilot principale.
Le compute comme contrainte
Le timing de ces annonces n'est pas déconnecté des résultats financiers. Le dernier trimestre d'Azure a montré une croissance de 35 %, dont 16 points attribués à l'IA — mais les analystes de Goldman Sachs ont noté que la demande dépassait encore la capacité disponible dans plusieurs régions. Microsoft a des clients en file d'attente pour du GPU. Construire des modèles plus petits et plus efficaces n'est pas qu'une décision scientifique. C'est une décision d'allocation de ressources.
Mustafa Suleyman a donné une interview depuis un bureau du campus de Redmond dont les stores étaient encore emballés — il a emménagé il y a trois mois. Il a insisté sur le fait que
« l'efficacité d'inférence est le vrai champ de bataille des 18 prochains mois, pas la taille des modèles ».
Une phrase qui sonne comme un repositionnement théorique, mais qui correspond aussi à ce que les équipes Azure observent dans les logs d'utilisation : la majorité des appels API ne nécessitent pas GPT-4o.
Chez Anthropic, Dario Amodei a tenu un discours similaire en avril, en insistant sur la montée en puissance de Claude Haiku pour les cas d'usage à volume élevé. La convergence rhétorique est frappante : tous les fournisseurs de modèles découvrent en même temps que les modèles les plus puissants ne sont pas les plus rentables à opérer.
Pour les DSI, la question change de nature. Il ne s'agit plus de choisir entre Azure et GCP pour accéder à un modèle frontier. Il s'agit de comprendre combien de fournisseurs de modèles on consomme à travers un seul cloud provider — et ce qui se passe quand ce cloud provider commence à favoriser ses propres modèles dans le routage par défaut de ses agents.
Microsoft n'a rien dit sur le routage de modèles dans Copilot. Personne ne lui a posé la question au Build.
TL;DR
Microsoft lance trois modèles d'IA propriétaires et conceptualise un « mid-class model » maison — une rupture silencieuse avec sa stratégie de dépendance exclusive à OpenAI.
- Trois modèles Microsoft AI (transcription, voix, image) développés hors OpenAI, déjà utilisés en interne sur Teams et Copilot, sans date de GA publique pour la plupart.
- Le concept de mid-class model traduit une contrainte de compute réelle : les modèles frontier coûtent trop cher à inférer pour 80 % des usages enterprise, dans un contexte où Azure manque déjà de capacité GPU dans certaines régions.
- La relation Microsoft-OpenAI reste intacte en façade, mais les intérêts divergent : OpenAI vend en direct, Microsoft construit sa propre pile — la question du routage de modèles dans Copilot n'a pas été posée.
Questions fréquentes
Les modèles propriétaires Microsoft remplacent-ils GPT-4o dans Copilot?
Non. Les trois modèles annoncés couvrent des tâches spécialisées (transcription, voix, image). Le raisonnement généraliste de Copilot reste alimenté par les modèles OpenAI. Le mid-class model pourrait à terme prendre en charge des tâches courantes, mais aucun calendrier n'a été communiqué.
Qu'est-ce que ça change pour les entreprises qui consomment Azure OpenAI Service?
Le paysage se complexifie. Un client Azure consomme désormais potentiellement des modèles OpenAI, des modèles Microsoft AI et des modèles open source via le Model Catalog — parfois sans savoir lequel répond à sa requête. La question de la gouvernance des modèles consommés devient un sujet d'architecture à part entière.
Microsoft peut-il réellement réduire sa dépendance à OpenAI à court terme?
Pas sur le raisonnement généraliste, qui reste le coeur de Copilot. Mais sur les tâches périphériques à fort volume (transcription, voix, image), la substitution est déjà en cours. Le vrai test sera le mid-class model : s'il atteint un niveau suffisant pour les tâches enterprise courantes, Microsoft disposera d'un levier de négociation considérable face à OpenAI.