Disruption de l'inference cloud : Caltech sort du mode stealth avec un LLM 1-bit qui peut tourner sur iPhone

Sujet: Disruption de l'inference cloud : Caltech sort du mode stealth avec un LLM 1-bit qui peut tourner sur iPhone
Date: 1 avril 2026

PrismML, un lab IA issu de Caltech et financé par Khosla Ventures, Cerberus et Google, sort du mode stealth avec le premier LLM 1-bit commercialement viable. Son modèle phare, Bonsai 8B, fait tenir 8,2 milliards de paramètres dans 1,15 Go de mémoire — 14 fois moins qu'un modèle 16-bit équivalent — et tourne à 44 tokens/seconde sur un iPhone 17 Pro. Les benchmarks annoncent des performances comparables à Llama 3 8B. Le modèle est open source sous Apache 2.0. La question que le marché doit se poser : si un modèle 8B tient dans un gigaoctet, qu'est-ce qui justifie encore de payer pour de l'inference cloud sur cette gamme de modèles ?

Le 31 mars 2026, PrismML est sorti du mode stealth avec un claim qui devrait intéresser tous les DSI qui gèrent des budgets d'inference cloud : un LLM de 8 milliards de paramètres qui tient dans 1,15 Go de mémoire et tourne nativement sur un iPhone. Le modèle standard 16-bit équivalent pèse 16 Go. Il ne rentre sur aucun téléphone.

Babak Hassibi, mathématicien et informaticien à Caltech, dirige le projet. Son équipe a passé plusieurs années à développer la théorie mathématique nécessaire pour comprimer un réseau de neurones sans détruire ses capacités de raisonnement. La propriété intellectuelle appartient à Caltech. PrismML en est le licencié exclusif. La startup a levé 16,25 millions de dollars en SAFE et seed auprès de Khosla Ventures, Cerberus Capital et Caltech, et bénéficie de grants de compute de Google.

Vinod Khosla, fondateur de Khosla Ventures : « This is not a minor iteration, but a major technological breakthrough — a mathematical breakthrough — not just another small model. »

Un modèle IA qui opère sur 1 bit

La plupart des modèles IA opèrent avec des poids en 16-bit (float16). Certains descendent à 4-bit via la quantization post-entraînement — une compression appliquée après coup qui dégrade plus ou moins les performances selon la méthode. Bonsai fait autre chose : le modèle est entraîné nativement en 1-bit. Chaque poids utilise trois valeurs possibles : -1, 0 ou +1. Tous les composants — embeddings, attention, MLP, output head — sont en 1-bit, sans patches haute précision.

La conséquence arithmétique est directe : multiplier par 0 est un no-op, multiplier par 1 est une identité, multiplier par -1 est un changement de signe. Les opérations en virgule flottante, qui consomment l'essentiel de l'énergie et du temps de calcul dans un processeur, disparaissent.

PrismML publie trois modèles : Bonsai 8B (1,15 Go), Bonsai 4B (0,5 Go) et Bonsai 1.7B (0,24 Go). Tous sous licence Apache 2.0, téléchargeables gratuitement, sans restriction d'usage commercial. Le 1.7B tourne à 130 tokens/seconde sur iPhone 17 Pro Max. L'app iOS Locally AI supporte déjà les modèles Bonsai.

Densité d'intelligence

PrismML introduit une métrique maison : la « densité d'intelligence », définie comme le log négatif du taux d'erreur divisé par la taille du modèle. Sur ce critère, Bonsai 8B affiche 1,06/Go, contre 0,10/Go pour Qwen3 8B. Un ratio de 10x. La métrique est évidemment conçue pour mettre en valeur exactement ce que PrismML fait bien. Mais elle pointe un angle mort réel de l'industrie : la course aux paramètres a optimisé la capacité brute sans se soucier de l'efficacité de déploiement.

Sur les benchmarks standards bruts, PrismML annonce des performances « comparables » à Llama 3 8B et aux modèles 8B de référence. Le modèle a été entraîné sur des TPU v4 de Google. Le whitepaper technique est disponible. La validation communautaire, elle, commence à peine. Le modèle est sorti hier. Les benchmarks sont ceux de l'éditeur. La prudence s'impose.

L'angle cloud

L'impact immédiat est à l'edge, mais les implications s'étendent au datacenter. Un modèle 14 fois plus petit utilise 14 fois moins de bande passante mémoire. La mémoire HBM est le goulot d'étranglement principal de l'inference sur GPU. Réduire la footprint mémoire d'un facteur 14 permet de servir 14 fois plus d'utilisateurs par GPU — ou d'utiliser du hardware moins onéreux.

Amir Salek, investisseur chez Cerberus Ventures et fondateur du programme TPU chez Google : « Power has become the ultimate bottleneck for scaling AI datacenters, and PrismML is fundamentally transforming the power-to-compute equation. »

Ion Stoica, cofondateur de Databricks et professeur à UC Berkeley, a commenté l'annonce : réduire les modèles à des représentations 1-bit change l'équation d'optimisation d'un point de vue systèmes. Le fait que Stoica s'exprime publiquement — il est rarement dans les communiqués de presse de startups early-stage — est un signal en soi.

Ce qui manque maintenant

PrismML est transparent sur une limitation centrale : le gain de vitesse actuel de 8x provient principalement de la réduction de l'empreinte mémoire, pas d'une exploitation complète du calcul 1-bit pendant l'inference. Le hardware existant n'est pas conçu pour l'inference ternaire. PrismML estime qu'un silicium optimisé pour les opérations ternaires pourrait débloquer « un autre ordre de grandeur » — ce qui transformerait le 8x actuel en 80x.

Ce silicium n'existe pas aujourd'hui. Personne ne l'a annoncé. La promesse est conditionnelle à un changement d'architecture hardware que PrismML ne contrôle pas. Nvidia, qui vend des GPU optimisés pour les opérations float16 et int8, n'a pas d'intérêt évident à accélérer l'adoption du 1-bit. Les gains 1-bit sont maximaux exactement là où Nvidia est le plus rentable.

Les benchmarks « comparables » à Llama 3 8B sur des tests standards ne disent rien sur le comportement en production. Les edge cases, la robustesse aux prompts adversariaux, la qualité de génération longue, la cohérence multi-tour — rien de tout cela n'est documenté pour le moment. Les développeurs qui envisagent un déploiement devraient tester rigoureusement pour leurs cas d'usage spécifiques. C'est la version 1.0 d'un modèle sorti il y a 24 heures.

Dans la démo, PrismML montre Bonsai 8B résolvant un problème MATH-500 sur un iPhone 17 Pro à 40 tokens/seconde. En split-screen, un modèle 1B en 16-bit tourne à 23 tokens/seconde sur le même prompt. Le modèle 14 fois plus compressé est aussi plus rapide et plus précis que le modèle non compressé quatre fois plus petit. La démo est soigneusement choisie. Elle est aussi difficile à ignorer.

$16,25 millions de financement seulement

Le financement est modeste par les standards du secteur : 16,25 millions en SAFE et seed. Khosla Ventures mène, suivi de Cerberus Capital (dont le partenaire Amir Salek a fondé le programme TPU chez Google) et Caltech. Google a fourni des grants de compute sous forme de TPU v4. Le fait que Google finance indirectement une technologie qui pourrait réduire la demande de compute cloud est soit un hedge, soit un pari que la compression va élargir le marché total plutôt que le cannibaliser.

Les quatre fondateurs viennent de Caltech : Babak Hassibi (CEO, professeur), Sahin Lale, Omead Pooladzandi et Reza Sadri — tous titulaires d'un doctorat. C'est un profil recherche pure qui lance un produit, pas l'inverse. Le whitepaper passe par ICLR 2026. Ce n'est pas un pitch deck habillé en article scientifique.

TL;DR

Un lab Caltech met un LLM de 8 milliards de paramètres dans 1,15 Go. Votre iPhone peut l'exécuter. Le cloud, pour cette gamme de modèles, vient de recevoir un avis de concurrence.

PrismML sort du stealth avec Bonsai 8B, un modèle nativement entraîné en 1-bit (poids en -1, 0, +1) qui pèse 1,15 Go au lieu de 16 Go, tourne 8x plus vite et consomme 5x moins d'énergie qu'un modèle 16-bit équivalent. Open source sous Apache 2.0, $16,25M levés auprès de Khosla, Cerberus et Caltech.
Le gain actuel provient de la réduction mémoire, pas du calcul ternaire natif — le hardware optimisé n'existe pas encore. PrismML estime qu'un silicium dédié pourrait pousser le facteur de 8x à 80x. C'est une promesse conditionnelle à un changement que Nvidia n'a pas d'intérêt immédiat à accélérer.
Pour les DSI : si la qualité de production se confirme, Bonsai change l'équation de déploiement pour les modèles 8B. L'inference on-device pour de l'analyse, du tri, de la classification ou de l'assistance locale devient viable sans API cloud, sans latence réseau, et sans coût par token.

Questions fréquentes

Est-ce que 1-bit signifie une perte de qualité significative?

PrismML annonce des performances « comparables » à Llama 3 8B sur les benchmarks standards. Mais le modèle est sorti il y a 24 heures — les benchmarks sont ceux de l'éditeur, la validation indépendante n'a pas encore commencé. Pour des cas d'usage de production (assistants, classification, analyse de documents), il faudra tester rigoureusement avant de tirer des conclusions.

Qu'est-ce que ça change concrètement pour le déploiement en entreprise?

Un modèle 8B qui tient dans 1,15 Go peut tourner sur un laptop, un téléphone ou un serveur edge sans GPU dédié. Pour des cas d'usage où la latence, la confidentialité ou le coût par token sont critiques — classification de documents, pré-traitement de données, assistants internes — le déploiement on-device devient une alternative réelle à l'API cloud. Le modèle est gratuit, la licence Apache 2.0 n'impose pas de restrictions commerciales.

Est-ce que Nvidia devrait s'inquiéter?

Pas immédiatement. Les modèles frontier (70B+, reasoning avancé) restent hors de portée du 1-bit pour l'instant, et l'inference sur GPU H100/B200 reste nécessaire pour ces charges. Mais si la compression 1-bit se généralise aux modèles de taille moyenne, le volume d'inference cloud pour les modèles 8B-13B pourrait se déplacer significativement vers l'edge — ce qui toucherait directement le segment de marché que Nvidia est en train de construire avec les GPU d'inference.

Article rédigé par Hamadi Lanouar