DeepMind Gemma 4 : Google ouvre son modèle le plus ambitieux sous Apache 2.0 et parie sur l'agentique

Sujet: DeepMind Gemma 4 : Google ouvre son modèle le plus ambitieux sous Apache 2.0 et parie sur l'agentique
Date: 3 avril 2026

Google DeepMind publie Gemma 4, sa nouvelle famille de modèles ouverts sous licence Apache 2.0, avec des capacités de raisonnement et d'orchestration agentique intégrées. Le timing n'est pas innocent : Meta prépare Llama 4, Mistral pousse ses pions en entreprise, et le marché des modèles ouverts est devenu un terrain de conquête stratégique autant qu'un enjeu technique.Derrière l'annonce, une question que Google ne pose pas : qui, concrètement, va déployer ces modèles en production — et dans quelles conditions.

Gemma 4 a été annoncé lors de l'I/O 2025, le 20 mai, dans une séquence où Google a enchaîné les annonces modèles à un rythme qui rendait difficile de distinguer ce qui était disponible de ce qui relevait de la roadmap. Le modèle est distribué sous Apache 2.0 — licence permissive, pas de restriction d'usage commercial, pas de clause de taille comme celle que Meta avait glissée dans les premières versions de Llama 2.

La famille comprend plusieurs variantes. Le modèle phare, Gemma 4 27B, est un dense transformer de 27 milliards de paramètres. Google revendique des performances comparables à GPT-4o-mini sur plusieurs benchmarks de raisonnement, notamment MMLU-Pro et MATH-500. Il y a aussi un Gemma 4 12B. Et surtout un modèle 9B baptisé Gemma 4 Nano, pensé pour tourner on-device — sur un téléphone Pixel, typiquement.

La vraie nouveauté technique n'est pas le raisonnement en soi — Gemma 3 avait déjà une chaîne de pensée fonctionnelle. C'est l'intégration native de capacités dites agentiques : le modèle peut appeler des outils externes, gérer des boucles de planification et d'exécution, interagir avec des API via du function calling structuré. Google fournit un framework d'agent minimal basé sur son SDK Python, compatible avec LangChain et son propre Agent Development Kit présenté au même événement.

Apache 2.0

Le choix de licence mérite qu'on s'y arrête. Quand Meta avait lancé Llama 2 en juillet 2023, la licence communautaire imposait une restriction au-delà de 700 millions d'utilisateurs mensuels — une clause sur-mesure qui excluait de facto les hyperscalers concurrents. Llama 3 a assoupli les termes, mais la licence reste propriétaire. Mistral, de son côté, oscille entre Apache 2.0 pour ses petits modèles et des licences commerciales pour les plus gros.

Google met tout sous Apache 2.0. Y compris le 27B. Ce qui signifie qu'un concurrent, un intégrateur ou un cloud souverain peut le reprendre, le fine-tuner, le redistribuer sans négociation. Sur le papier, c'est la position la plus ouverte du marché pour un modèle de cette taille.

En pratique, les poids du modèle sont hébergés sur Kaggle et Hugging Face. L'entraînement, lui, a été réalisé sur les TPU v5p de Google — une infrastructure que personne d'autre ne possède. Les coûts de reproduction restent opaques. Google ne publie ni le budget compute, ni le dataset d'entraînement détaillé, ni les ablations complètes. Le papier technique de Gemma 4 fait 47 pages et consacre deux paragraphes aux données d'entraînement, dont l'essentiel se résume à « a mix of publicly available and proprietary data ».

Benchmarks

Les chiffres annoncés sont bons. Sur MMLU-Pro, le 27B atteint 72,6 selon Google — contre 73,0 pour GPT-4o-mini d'OpenAI et 69,4 pour Llama 3.1 70B de Meta. Sur HumanEval (génération de code), Gemma 4 27B affiche 82,9, au-dessus de Mistral Large 2 (78,6). Ces comparaisons sont celles de Google, publiées dans son blog technique.

Le Gemma 4 27B rivalise donc avec un modèle Meta presque trois fois plus gros en paramètres. C'est le point que Google veut qu'on retienne. Ce qu'on remarque aussi, c'est que les benchmarks agentiques — ceux qui mesurent la capacité du modèle à enchaîner des appels d'outils en autonomie — ne figurent pas dans le tableau officiel. Il existe bien un score sur GAIA (benchmark multi-step agent), mais Google ne le compare à aucun concurrent. Le chiffre est là, seul, dans une note de bas de page.

L'agentique comme terrain de jeu

Le function calling natif de Gemma 4 fonctionne via un format JSON structuré que le modèle génère en sortie. L'idée : au lieu de simplement répondre à une question, le modèle peut décider d'appeler une fonction — interroger une base de données, déclencher une API, lire un fichier — puis utiliser le résultat pour poursuivre son raisonnement. C'est ce que font déjà les API d'OpenAI et d'Anthropic. La différence ici, c'est que le modèle tourne en local ou sur une infrastructure que le client contrôle.

Pour une DSI qui gère des données sensibles — santé, finance, défense — c'est un argument réel. Pouvoir orchestrer un agent capable de raisonner et d'agir sans envoyer de requêtes à un endpoint externe change l'équation de conformité. À condition que le modèle soit fiable dans ses appels d'outils. Et c'est précisément le point que les benchmarks publics ne mesurent pas encore de façon standardisée.

Lors de l'I/O, Jeanine Banks, VP Engineering chez Google DeepMind, a présenté une démo dans laquelle un agent Gemma 4 gérait un workflow de support client en cinq étapes, incluant deux appels API et une décision conditionnelle. La démo tournait sur un serveur équipé d'un seul GPU A100. L'audience applaudissait à chaque étape. Personne n'a demandé ce qui se passe quand l'API cible renvoie une erreur 500.

Le 9B sur mobile

Le Gemma 4 Nano 9B est peut-être le modèle le plus intéressant de la famille pour les déploiements à court terme. Google affirme qu'il tourne en inférence sur un Pixel 9 Pro avec un temps de réponse inférieur à 200 ms pour des requêtes simples. Le modèle est quantifié en INT4, ce qui réduit la mémoire requise à environ 5 Go.

Qualcomm et MediaTek ont tous deux annoncé un support optimisé de Gemma 4 Nano sur leurs SoC mobiles récents. Ça veut dire que le modèle ne sera pas limité aux Pixel. Samsung, Xiaomi, OnePlus — n'importe quel OEM Android peut l'intégrer. Apple, évidemment, ne le fera pas.

Il y a dix-huit mois, Google présentait Gemma 2 2B comme le modèle qui allait démocratiser l'IA on-device. Le chiffre d'adoption réel n'a jamais été publié. Les développeurs Android qui ont testé Gemma 2 sur mobile ont rapporté des latences élevées et une qualité de génération insuffisante pour des cas d'usage en production. Le 9B est sensiblement meilleur sur les benchmarks — reste à voir si la promesse on-device se traduit cette fois en déploiements réels.

Le marché

L'écosystème des modèles ouverts est devenu un champ de bataille à trois fronts. Meta veut que Llama soit le standard de facto et investit massivement dans l'écosystème de fine-tuning. Mistral se positionne sur le segment entreprise européen avec une approche plus verticale. Google, avec Gemma, cherche à occuper le terrain qui reste : les développeurs qui veulent un modèle compétitif, réellement ouvert, qu'ils peuvent déployer sur Google Cloud — ou ailleurs.

Le « ou ailleurs » est la partie la plus ambiguë. Google met les poids en accès libre, mais l'intégration la plus fluide passe par Vertex AI, son service managé. Le fine-tuning supervisé de Gemma 4 est disponible en un clic sur Vertex. Pour le même fine-tuning sur AWS ou Azure, il faut configurer soi-même l'environnement, gérer les dépendances JAX, et accepter que le support technique sera communautaire.

Jeff Dean, Chief Scientist chez Google DeepMind, a déclaré dans un post publié le jour de l'annonce : « Gemma 4 represents our belief that the most capable models should be available to everyone. Open weights, open license, no strings attached. »

La phrase est jolie. Google Cloud a augmenté ses revenus IA de 42 % au dernier trimestre. Les modèles ouverts sont une rampe d'accès vers l'infrastructure payante. Tout le monde le sait.

Le SDK Agent Development Kit, publié en parallèle, ne fonctionne nativement qu'avec les modèles Google — Gemma et Gemini. Il est open source, mais le coût d'adaptation pour y brancher un modèle tiers est non trivial. L'ouverture a ses périmètres.

Demis Hassabis n'était pas sur scène pour la présentation Gemma. C'était dans le bloc développeurs, pas dans le keynote principal. Gemini Ultra a eu droit à la keynote. Gemma a eu droit à la session technique de 14h30, salle B, avec un public clairsemé qui revenait du déjeuner.

TL;DR

Google publie Gemma 4 sous Apache 2.0, un modèle ouvert de 27B paramètres avec des capacités agentiques natives, directement concurrent de Llama 3.1 70B — avec trois fois moins de paramètres.

Le modèle intègre du function calling natif et un framework agent minimal, permettant des workflows autonomes en environnement contrôlé — un argument de poids pour les DSI soumises à des contraintes de souveraineté ou de conformité.
La licence Apache 2.0 est la plus permissive du marché pour un modèle de cette taille, mais l'intégration optimale reste orientée vers l'écosystème Google Cloud (Vertex AI, Agent Development Kit).
Le Gemma 4 Nano 9B cible le déploiement on-device sur smartphones Android avec le support de Qualcomm et MediaTek — une promesse que Google avait déjà faite avec Gemma 2 sans résultat mesurable.

Questions fréquentes

Gemma 4 est-il réellement utilisable en production pour des workflows agentiques?

Le function calling et la boucle de planification sont fonctionnels, mais il n'existe pas encore de benchmark standardisé pour mesurer la fiabilité d'un agent en conditions réelles — gestion d'erreurs, timeouts, résultats inattendus. Les démos montrent le chemin attendu, pas les cas limites. Une évaluation interne est indispensable avant tout déploiement critique.

Quel avantage concret par rapport à Llama 3.1 pour une entreprise européenne?

La licence Apache 2.0 élimine les ambiguïtés juridiques qui subsistent avec la licence communautaire de Meta. Sur le plan technique, le 27B offre des performances proches du Llama 70B avec un coût d'inférence nettement inférieur. En revanche, l'écosystème de fine-tuning et la communauté autour de Llama restent plus matures à ce stade.

Le modèle 9B Nano est-il viable pour des cas d'usage B2B sur mobile?

En INT4 sur les SoC récents, le temps de réponse annoncé est inférieur à 200 ms pour des requêtes simples. Pour des tâches complexes — raisonnement multi-étapes, génération longue — les performances chuteront. Le cas d'usage réaliste à court terme est l'assistance contextuelle embarquée, pas l'agent autonome on-device.

Article rédigé par Hamadi Lanouar