Qwen3.7-Plus : Alibaba ajoute la vue, ferme les poids, et facture au rabais

Sujet: Qwen3.7-Plus : Alibaba ajoute la vue, ferme les poids, et facture au rabais
Date: 3 juin 2026

Alibaba a publié le 2 juin Qwen3.7-Plus, version multimodale de son agent Qwen3.7-Max : entrée texte, image et vidéo, fenêtre d'un million de tokens, ancrage GUI pour les agents, à 0,40 dollar le million de tokens en entrée et 1,60 en sortie — environ six fois moins cher que Max. C'est l'un des modèles frontier-tier les moins chers du marché, juste au-dessus du tarif promotionnel de MiniMax M3. Sur les benchmarks d'agent visuel et de computer-use, il devance GPT-5.4 et Claude Opus 4.6. Mais comme Max avant lui, Qwen3.7-Plus est fermé : API propriétaire uniquement, pas de poids ouverts. C'est une rupture avec la stratégie qui a fait la réputation de Qwen — des modèles open-source quasi état-de-l'art, adoptés jusque chez Airbnb. Et c'est de la compréhension visuelle, pas de la génération : le modèle lit images et vidéos, il n'en crée pas.

Alibaba a lancé Qwen3.7-Plus le 2 juin, quelques jours après Qwen3.7-Max. Plus est Max avec des yeux : même ossature agentique, même fenêtre d'un million de tokens, plus l'entrée image et vidéo, à environ un sixième du prix de Max. Disponible via la plateforme Bailian d'Alibaba Cloud - la console que les utilisateurs internationaux connaissent sous le nom de Model Studio.

Le prix : 0,40 dollar le million de tokens en entrée, 1,60 en sortie, 0,08 pour l'entrée mise en cache. Parmi les modèles puissants les moins chers disponibles aujourd'hui, juste au-dessus du tarif promotionnel limité de MiniMax M3.

Une précision que l'intitulé « multimodal » laisse dans l'ombre : c'est de la compréhension visuelle, pas de la génération. Le modèle lit images et vidéos, il n'en produit pas. La génération d'image et de vidéo d'Alibaba relève de familles de modèles séparées. Pour un usage entreprise, ça cadre le périmètre : OCR à grande échelle, lecture de graphiques, analyse de captures d'écran, compréhension de séquences vidéo - pas de création de visuels.

Sur ScreenSpot Pro, qui mesure la compréhension localisée d'interface, Qwen3.7-Plus marque 79,0 contre 67,4 pour GPT-5.4 en réglage xhigh. Sur Terminal Bench, qui évalue la capacité à exécuter du code en terminal de façon sûre et itérative, 70,3 devant DeepSeek et Gemini 3.1 Pro. Sur les métriques de capacité brute, le modèle reste sous plusieurs générations actuelles et antérieures des modèles propriétaires américains, dont Claude Opus 4.6 et GPT-5.4. Ces chiffres sont publiés par Alibaba.

Airbnb

Qwen3.7-Plus est fermé. Licence commerciale propriétaire, accès par API et Qwen Chat, pas de poids ouverts. Comme Qwen3.7-Max juste avant. C'est un virage par rapport à la stratégie qui a construit la notoriété de Qwen : des modèles open-source proches de l'état de l'art, sur lesquels des entreprises se sont appuyées - Airbnb parmi elles. Ceux qui avaient bâti sur les Qwen ouverts découvrent qu'Alibaba ferme ses sorties récentes.

La semaine précédente, MiniMax fermait les poids de M2.7 puis rouvrait avec M3. Alibaba ferme Max puis Plus. Deux des labos chinois les plus associés à l'open-weight resserrent leurs licences sur leurs modèles les plus récents, à quelques jours d'intervalle.

Alibaba positionne la famille 3.7 sur l'agentique : tâches longues, planification multi-étapes, invocation d'outils, auto-programmation, vérification, test, itération autonome. Le terme maison « preserve_thinking » désigne la conservation du raisonnement entre les tours - devenu un standard de fait pour le raisonnement multi-tours, pas une singularité d'Alibaba.

En mode déploiement global, sur la génération précédente Qwen3.5-Plus, les endpoints et le stockage des données étaient situés en Virginie ou à Francfort, avec une planification dynamique des ressources de calcul à l'échelle mondiale. Reste qu'Alibaba est une entreprise chinoise, soumise à la loi de 2017 sur le renseignement national, quel que soit l'emplacement des serveurs.

Les tokens visuels partagent le budget d'un million de tokens avec le texte. Une grosse charge média réduit d'autant la place disponible pour le texte.

TL;DR

Alibaba sort un modèle multimodal frontier-tier à prix cassé et fort en agent visuel, mais ferme les poids — deuxième labo chinois à abandonner l'open-weight en une semaine.

0,40/1,60 $ le million de tokens, fenêtre d'1M, devance GPT-5.4 et Claude Opus 4.6 sur les benchmarks computer-use et visuels (chiffres Alibaba) ; compréhension visuelle, pas génération.
Virage propriétaire : API-only, pas de poids ouverts, rupture avec la stratégie open-source qui avait séduit jusqu'à Airbnb — comme MiniMax avec M3 quelques jours plus tôt.
Entreprise chinoise sous loi de 2017 sur le renseignement ; les tokens visuels grignotent le budget de contexte texte.

Questions fréquentes

À quoi sert concrètement le modèle pour une DSI ?

Aux agents qui lisent des interfaces : OCR de masse, analyse de captures d'écran, lecture de graphiques, compréhension vidéo, computer-use. Pas à la génération de visuels, qui relève d'autres familles Alibaba.

Le virage propriétaire change-t-il l'évaluation du risque ?

Oui. Plus de déploiement local possible : tout passe par l'API d'Alibaba Cloud, donc sous gouvernance et juridiction chinoises, là où les anciens Qwen ouverts permettaient un hébergement maîtrisé.

Le prix bas est-il l'argument décisif ?

Il rend l'agent visuel économiquement viable à l'échelle, mais les tokens image et vidéo consomment le même budget de contexte que le texte, et les scores de capacité brute restent sous les meilleurs modèles US. À arbitrer selon la charge.

Article rédigé par Hamadi Lanouar