Mistral Medium 3.5 : test du nouveau modèle phare français (avis 2026)
Mistral AI a lancé Medium 3.5 le 2 mai 2026. Un modèle dense de 128 milliards de paramètres, un contexte de 256K tokens, des poids ouverts sous licence MIT modifiée, et un prix deux fois inférieur à Claude Sonnet 4.6. On l’a passé sur 8 cas d’usage pour voir si les benchmarks tiennent la route en pratique.
Le verdict en 30 secondes
Note globale : 4/5
| Critère | Note | Commentaire |
|---|---|---|
| Performance code | 4,5/5 | 77,6 % SWE-Bench Verified — top 3 mondial |
| Raisonnement | 4/5 | Mode reasoning activable par requête, efficace sur les problèmes multi-étapes |
| Rapport qualité-prix | 4,5/5 | 1,50 $/M tokens input, 7,50 $/M output — moitié prix de Sonnet 4.6 |
| Écosystème | 3,5/5 | Open weights sur HuggingFace, mais 128B = lourd à héberger soi-même |
Mistral Medium 3.5 remplace trois modèles distincts (Medium 3.1, Magistral et Devstral 2) en un seul jeu de poids. Pour du code et du raisonnement en production, c’est le meilleur rapport perf/prix disponible en mai 2026.
Ce qui change avec Medium 3.5 (vs Medium 3, Sonnet 4.6, GPT-5.5)
La principale rupture : Mistral fusionne ses trois modèles spécialisés en un seul. Avant, il fallait choisir entre Medium 3.1 (conversation), Magistral (raisonnement) et Devstral 2 (code). Maintenant, un toggle dans l’API bascule entre mode instant et mode reasoning sur le même modèle.
Tableau comparatif mai 2026
| Caractéristique | Mistral Medium 3.5 | Claude Sonnet 4.6 | GPT-5.5 |
|---|---|---|---|
| Paramètres | 128B (dense) | Non communiqué | Non communiqué |
| Contexte | 256K tokens | 200K tokens | 1 050K tokens |
| SWE-Bench Verified | 77,6 % | 79,6 % | Non publié |
| tau3-Telecom (agentique) | 91,4 % | Non publié | Non publié |
| Prix input (par M tokens) | 1,50 $ | 3,00 $ | 5,00 $ |
| Prix output (par M tokens) | 7,50 $ | 15,00 $ | 15,00 $ |
| Open weights | Oui (MIT modifiée) | Non | Non |
| Vision | Oui | Oui | Oui |
Le delta sur SWE-Bench avec Sonnet 4.6 n’est que de 2 points (77,6 % contre 79,6 %). Sur le benchmark agentique tau3-Telecom, Medium 3.5 domine avec 91,4 % — un score qui traduit sa capacité à enchaîner des actions sur des tâches complexes.
Autre point notable : Medium 3.5 est un modèle dense, pas un Mixture of Experts. Les 128 milliards de paramètres sont tous actifs à chaque inférence, contrairement à des architectures comme Qwen 3.5 (397B mais seulement 17B actifs). En théorie, cela donne un raisonnement plus cohérent sur les tâches complexes, au prix d’une latence plus élevée par token.
En pratique, cette architecture dense se traduit par un temps de réponse légèrement plus long que les modèles MoE de taille comparable (environ 50-80 tokens/seconde sur La Plateforme, contre 100+ pour un MoE). Pour des appels API classiques, la différence est imperceptible. Pour du streaming en temps réel sur de gros volumes, c’est un paramètre à prendre en compte.
Le support multilingue couvre une vingtaine de langues (français, anglais, espagnol, allemand, italien, portugais, néerlandais, chinois, japonais, coréen, arabe). La vision est native : le modèle analyse des images directement dans le même jeu de poids, sans module séparé.
Côté prix, le calcul est simple : à volume d’appels API équivalent, Medium 3.5 coûte deux fois moins que Sonnet 4.6 et trois fois moins que GPT-5.5 en output.
Notre protocole de test : 8 prompts identiques sur Medium 3.5 / GPT-5.5 / Claude Sonnet 4.6
On a soumis les mêmes 8 prompts aux trois modèles via l’API, en mode reasoning activé quand disponible. Les prompts couvrent quatre familles de tâches.
Code (2 prompts)
Prompt 1 — Refactor Python : réécrire un script ETL de 300 lignes en classes propres avec gestion d’erreurs. Medium 3.5 a produit un code fonctionnel du premier coup avec des docstrings complètes. Sonnet 4.6 a fait de même avec un style légèrement plus idiomatique. GPT-5.5 a ajouté une couche d’abstraction inutile.
Prompt 2 — Debug TypeScript : trouver et corriger un bug dans un composant React avec state race condition. Les trois modèles l’ont trouvé, mais Medium 3.5 a proposé la correction la plus concise en utilisant useRef au lieu d’un useEffect supplémentaire.
Raisonnement (2 prompts)
Prompt 3 — Analyse juridique : résumer les implications d’un contrat SaaS de 12 pages. Medium 3.5 a correctement identifié les clauses à risque (limitation de responsabilité, propriété des données). Son mode reasoning détaille chaque étape de l’analyse, ce qui aide à comprendre le cheminement.
Prompt 4 — Logique mathématique : problème de combinatoire niveau licence. Résultat correct pour les trois modèles, avec des approches différentes. Medium 3.5 a utilisé un raisonnement par récurrence propre.
Rédaction (2 prompts)
Prompt 5 — Article technique : rédiger 800 mots sur le fine-tuning de LLM. Medium 3.5 livre un texte structuré et précis, mais moins fluide que Sonnet 4.6 en français. GPT-5.5 produit un texte plus générique.
Prompt 6 — Email commercial : rédiger un email de relance B2B. Sonnet 4.6 gagne ici avec un ton plus naturel. Medium 3.5 reste correct mais légèrement plus formel.
Multimodal (2 prompts)
Prompt 7 — Analyse d’image : décrire et extraire des données d’un graphique en barre. Les trois modèles s’en sortent, Medium 3.5 est précis sur les valeurs numériques.
Prompt 8 — Tâche agentique multi-étapes : rechercher une info, la croiser avec un document, puis produire un résumé structuré. Medium 3.5 excelle ici, cohérent avec son score tau3-Telecom. Il enchaîne les étapes sans perdre le fil du contexte.
Bilan de nos tests
| Famille | Mistral Medium 3.5 | Claude Sonnet 4.6 | GPT-5.5 |
|---|---|---|---|
| Code (refactor + debug) | Excellent | Excellent | Correct |
| Raisonnement (juridique + maths) | Bon | Bon | Bon |
| Rédaction française | Correct | Excellent | Moyen |
| Multimodal + agentique | Excellent | Bon | Bon |
Medium 3.5 brille sur le code et les tâches agentiques multi-étapes. En rédaction française, Sonnet 4.6 conserve un avantage de fluidité. GPT-5.5 n’apporte pas un gain suffisant pour justifier son prix triple en output.
Sur l’ensemble des 8 prompts, Medium 3.5 se place au même niveau que Sonnet 4.6 pour un usage technique, avec un avantage net sur les tâches agentiques. La différence se fait sur le prix : pour le même budget API, vous pouvez envoyer deux fois plus de requêtes à Medium 3.5.
Prix et accès (API Mistral, La Plateforme, Le Chat, open weights HuggingFace)
Quatre façons d’utiliser Medium 3.5 en mai 2026 :
1. API Mistral (La Plateforme) : 1,50 $/M tokens en input, 7,50 $/M en output. Accès via https://api.mistral.ai. Modèle ID : mistral-medium-3.5. La facturation est à l’usage, sans engagement.
2. Le Chat (chat.mistral.ai) : accès gratuit avec limites de requêtes. L’abonnement Le Chat Pro (à 14,99 $/mois selon les derniers tarifs) débloque l’usage prioritaire et le Work Mode complet.
3. OpenRouter et autres providers : disponible chez plusieurs fournisseurs tiers, parfois à des tarifs différents. OpenRouter le liste dans son catalogue.
4. Open weights sur HuggingFace : le modèle complet (128B paramètres) est téléchargeable sur huggingface.co/mistralai sous licence MIT modifiée. Un head EAGLE pour l’inférence spéculative est aussi disponible. En pratique, faire tourner 128B en local demande au minimum 2-3 GPU A100 80 Go ou équivalent — ce n’est pas un modèle que vous lancez sur un MacBook.
Pour donner un ordre de grandeur : un workflow agentique qui consomme 500K tokens par jour (input + output) revient à environ 135 $/mois sur Medium 3.5, contre 270 $ sur Sonnet 4.6 et 300 $ sur GPT-5.5. Sur un an, l’écart dépasse les 1 500 $ — de quoi financer un développeur freelance quelques jours.
Pour une utilisation standard en entreprise, l’API Mistral reste le choix le plus simple. Le ratio perf/prix est imbattable face à Claude et OpenAI pour les workloads code-intensifs.
Le Chat Work Mode : le compagnon agentique du modèle
Mistral a lancé Work Mode en même temps que Medium 3.5. C’est un mode agentique dans Le Chat qui transforme l’assistant en véritable agent d’exécution.
En pratique, Work Mode peut :
- Connecter des outils : emails, calendrier, GitHub, documents internes. L’agent enchaîne les actions à travers plusieurs services dans une même session.
- Exécuter des workflows multi-étapes : « rattrape mes emails de la semaine, croise avec mon calendrier, et prépare un brief pour ma réunion de demain » — une seule instruction, l’agent fait le reste.
- Coder dans le cloud : sessions de code asynchrones avec exécution distante. Mistral parle d’un agent capable d’ouvrir des pull requests sur vos repos — un positionnement direct face à Claude Code et GitHub Copilot Workspace.
La transparence est un point fort : chaque appel d’outil est visible, et les actions sensibles (envoi d’email, modification de fichier) nécessitent une approbation explicite.
La comparaison avec ChatGPT Operator est pertinente : les deux proposent un agent qui agit dans vos outils. La différence : Work Mode tourne sur un modèle open weights, et le coût API sous-jacent est nettement inférieur.
Mistral appelle cette approche « Remote Agents in Vibe » : l’idée est qu’un développeur décrit ce qu’il veut en langage naturel, et l’agent exécute les étapes techniques (commit, test, déploiement). La Vibe CLI permet de lancer ces agents directement depuis le terminal, avec un résultat visible dans Le Chat.
En pratique, on a testé une séquence complète : « lis mes trois derniers tickets GitHub, résume les bugs critiques, et prépare un email de synthèse pour l’équipe produit ». L’agent a enchaîné la lecture des tickets, la synthèse, et la rédaction en moins de 90 secondes. L’approbation manuelle avant l’envoi de l’email est un garde-fou bienvenu — on ne veut pas qu’un agent envoie des emails sans validation humaine.
Le mode est encore jeune. Le nombre de connecteurs (email, calendrier, GitHub, Slack) reste limité par rapport à l’écosystème de plugins de ChatGPT. Mais l’exécution est rapide et la transparence des étapes intermédiaires donne confiance dans le résultat.
Pour qui Medium 3.5 a du sens, pour qui Sonnet 4.6 reste meilleur
Choisir Mistral Medium 3.5 si :
- Vous faites du code en production et le coût API compte. 50 % d’économie sur Sonnet 4.6, avec un delta de performance de seulement 2 points sur SWE-Bench.
- Vous avez besoin d’open weights pour des raisons de conformité, de souveraineté des données, ou simplement pour garder la main. Medium 3.5 est le seul modèle de cette gamme que vous pouvez héberger sur vos propres serveurs.
- Vous travaillez sur des tâches agentiques (chaînes d’appels d’outils, workflows multi-étapes). Le score tau3-Telecom de 91,4 % n’est pas un hasard.
- Vous êtes dans une structure française ou européenne qui préfère un fournisseur local pour des raisons réglementaires (RGPD, hébergement souverain).
Rester sur Sonnet 4.6 si :
- La qualité rédactionnelle en français est votre critère principal. Sonnet reste plus fluide et naturel en production de texte.
- Vous avez besoin d’un écosystème mature d’outils (Claude Code, Artifacts, Projects). L’environnement Anthropic est plus riche à ce jour.
- Votre workflow est déjà intégré dans l’écosystème Claude/Anthropic et le coût de migration ne justifie pas l’économie.
Et GPT-5.5 ? Le contexte de 1 050K tokens est son avantage unique. Si votre cas d’usage exige d’ingérer des documents très longs (rapports annuels complets, bases de code entières), GPT-5.5 reste pertinent malgré son prix plus élevé. Pour un comparatif détaillé Mistral vs ChatGPT, consultez notre article dédié.
FAQ
Mistral Medium 3.5 est-il gratuit ? Le Chat offre un accès gratuit avec des limites de requêtes. L’API est payante : 1,50 $/M tokens en input, 7,50 $/M en output. Les poids du modèle sont téléchargeables gratuitement sur HuggingFace, mais l’hébergement local a un coût matériel significatif (2-3 GPU haut de gamme minimum).
Quelle est la différence entre Mistral Medium 3.5 et Mistral Medium 3 ? Medium 3.5 remplace Medium 3.1, Magistral et Devstral 2 en un seul modèle. Il passe de 120K à 256K tokens de contexte, ajoute la vision, le mode reasoning configurable, et améliore le score SWE-Bench de ~65 % à 77,6 %.
Peut-on faire tourner Mistral Medium 3.5 en local ? Techniquement oui : les poids sont ouverts. Mais 128B de paramètres denses demandent au minimum 256 Go de VRAM (2-3 GPU A100 ou H100). Pour un usage individuel, l’API reste plus pratique et moins chère qu’un cluster GPU dédié.
Mistral Medium 3.5 parle-t-il bien français ? Oui. Le modèle est multilingue avec un support natif du français, de l’anglais, de l’espagnol, de l’allemand, et d’une dizaine d’autres langues. La qualité en français est bonne pour du code et du raisonnement, légèrement en retrait par rapport à Sonnet 4.6 pour de la rédaction longue.
Medium 3.5 remplace-t-il Magistral et Devstral ? Oui. Mistral a fusionné trois modèles (Medium 3.1, Magistral pour le raisonnement, Devstral 2 pour le code) en un seul jeu de poids. Un paramètre dans l’API (reasoning_effort) bascule entre mode instant et mode reasoning. Les anciens modèles restent accessibles pour la rétrocompatibilité, mais Medium 3.5 les surpasse sur tous les benchmarks publiés.
Le Chat Work Mode est-il inclus dans la version gratuite ? Work Mode est accessible dans Le Chat, avec des limites sur le nombre de sessions agentiques en version gratuite. L’abonnement Pro débloque un usage plus intensif et prioritaire.