Ollama : faire tourner des LLM en local gratuitement (guide complet 2026)
Ollama est l’outil le plus simple pour faire tourner des modèles d’IA sur sa propre machine. Pas de compte, pas d’abonnement, pas de données envoyées à un serveur externe. On l’a installé, testé plusieurs modèles, mesuré les performances réelles. Voici le guide complet 2026.
Ollama, c’est quoi exactement ?
Ollama est un runtime open source qui gère le téléchargement, l’installation et l’exécution de modèles d’IA en local. Il fait le pont entre les modèles (Llama, Mistral, Phi, Gemma, DeepSeek…) et votre machine, avec une interface en ligne de commande simple.
Concrètement : vous tapez ollama run llama3, le modèle se télécharge, et vous pouvez chatter en local. Tout se passe sur votre ordinateur.
Ollama est disponible sur macOS, Linux et Windows. Il gère l’optimisation GPU (Apple Silicon, NVIDIA, AMD) automatiquement. Pas de configuration à faire.
Pourquoi faire tourner un LLM en local ?
- Confidentialité : aucune donnée ne quitte votre machine. Important pour du code propriétaire, des documents médicaux, des contrats.
- Coût zéro à l’usage : après le téléchargement initial, plus rien à payer. Pas de facture API qui grimpe.
- Disponibilité offline : ça marche sans connexion internet.
- Contrôle total : vous choisissez le modèle, vous pouvez le fine-tuner, vous n’êtes pas soumis aux changements de TOS d’un fournisseur cloud.
En contrepartie : vous aurez des performances inférieures à GPT-5 ou Claude 4.5 sur les gros modèles, et votre machine doit être assez puissante.
Installation d’Ollama
Sur macOS
Téléchargez le dmg sur ollama.com, glissez l’app dans Applications, lancez-la. C’est tout. L’app tourne en arrière-plan et fournit la commande ollama dans le terminal.
Sur Linux
curl -fsSL https://ollama.com/install.sh | sh
Le script installe Ollama comme service systemd. Démarrage automatique au boot.
Sur Windows
Téléchargez l’installeur .exe depuis le site. Installation classique. Ollama tourne comme service Windows en fond.
Premier modèle en 30 secondes
ollama run llama3
Au premier lancement, Ollama télécharge le modèle (~5 Go pour Llama 3 8B). Une fois téléchargé, vous avez un prompt interactif. Tapez votre question, appuyez sur Entrée, vous avez la réponse.
Pour sortir : /bye.
Pour lister les modèles déjà installés : ollama list.
Quel modèle choisir ?
| Modèle | Taille | RAM minimum | Point fort |
|---|---|---|---|
| llama3.3 (8B) | ~5 Go | 8 Go | Polyvalent, bon FR, rapide |
| llama3.3 (70B) | ~40 Go | 64 Go | Qualité proche ChatGPT-4 |
| mistral (7B) | ~4 Go | 8 Go | Excellent en français |
| mixtral (8x7B) | ~26 Go | 48 Go | Très capable, MoE |
| phi3 (3.8B) | ~2 Go | 6 Go | Rapide, petit, bon en raisonnement |
| gemma2 (9B) | ~5 Go | 8 Go | Modèle Google, bon généraliste |
| deepseek-r1 (7B) | ~4 Go | 8 Go | Raisonnement étape par étape |
| codellama (13B) | ~7 Go | 16 Go | Spécialisé code |
Règle simple : votre RAM doit être au moins 1,5 × la taille du modèle. Un Mac M1/M2 avec 16 Go fait tourner confortablement les modèles 7-8B. Pour les 70B, il faut au moins 64 Go et un GPU costaud.
Les commandes essentielles
# Lancer un modèle en mode chat interactif
ollama run mistral
# Télécharger un modèle sans le lancer
ollama pull phi3
# Lister les modèles installés
ollama list
# Supprimer un modèle
ollama rm phi3
# Voir les modèles qui tournent actuellement
ollama ps
# Arrêter un modèle
ollama stop llama3
Utiliser Ollama depuis une app
Ollama expose une API HTTP locale sur le port 11434. Vous pouvez interroger vos modèles depuis n’importe quel langage.
Exemple en Python :
import requests
r = requests.post("http://localhost:11434/api/generate", json={
"model": "mistral",
"prompt": "Résume ce texte en 3 points : ...",
"stream": False
})
print(r.json()["response"])
L’API est compatible avec le format OpenAI sur l’endpoint /v1/chat/completions, donc vous pouvez utiliser les SDK OpenAI en remplaçant juste l’URL. Pratique pour migrer un code existant.
Ollama avec une interface graphique
Si la ligne de commande ne vous plait pas, plusieurs interfaces gratuites se branchent sur Ollama :
- Open WebUI : la plus complète, interface proche de ChatGPT, gestion de plusieurs modèles, RAG intégré, multi-utilisateurs. Installation via Docker.
- Msty : app native pour Mac/Windows, ergonomie soignée, gratuite.
- Chatbox : client simple multi-plateformes, supporte Ollama en natif.
- LM Studio : alternative complète à Ollama avec sa propre UI, peut aussi lire les modèles Ollama.
Performances réelles selon la machine
Pour donner une idée (mesurée sur Mistral 7B) :
- MacBook Air M2 8 Go : environ 18 tokens/s, ça répond en 2-5 secondes. Parfait pour du chat.
- MacBook Pro M3 Max 64 Go : 55-60 tokens/s sur 7B, et le 70B tourne à 6-8 tokens/s (utilisable mais lent).
- PC Linux RTX 4090 : 90-100 tokens/s sur les 7B, quasi instantané.
- PC moyen gamme sans GPU : 3-5 tokens/s, c’est jouable pour des requêtes ponctuelles mais pas pour du chat fluide.
Retenez : plus la RAM unifiée est grande (Apple Silicon) ou plus la VRAM est grande (NVIDIA), plus vous pouvez charger de gros modèles. Pour un usage régulier, 16 Go de RAM est le minimum confortable.
Cas d’usage où Ollama brille
- Dev local : tester des prompts sans brûler de crédits API
- Analyse de documents sensibles : contrats, comptes-rendus médicaux, notes confidentielles
- Résumé et extraction : traiter du volume en batch sans coût par requête
- RAG privé : coupler Ollama avec Open WebUI ou LangChain pour interroger vos propres documents
- Apprentissage : comprendre comment les LLM fonctionnent, tester différents modèles sans contrainte
- Automatisations offline : scripts locaux, traitement batch quand on veut pas dépendre d’une API
Où Ollama ne remplace pas un LLM cloud
- Travail créatif haut de gamme : les meilleurs 70B en local restent en dessous de GPT-5 et Claude 4.5 sur la qualité d’écriture longue.
- Recherche avec sources web : les LLM locaux n’ont pas accès au web. Pour ça, il faut Perplexity, ChatGPT Search, ou un montage RAG.
- Code complexe sur gros projets : Cursor ou Windsurf avec GPT-5 ou Claude Sonnet 4.5 restent plus efficaces que codellama en local.
- Multimodal : possible avec certains modèles Ollama (llava, bakllava) mais qualité loin derrière Gemini 2.0 ou GPT-4o.
Pour qui Ollama est fait ?
Développeurs qui veulent intégrer un LLM dans leurs outils sans dépendance API.
Entreprises sensibles à la confidentialité (juridique, médical, finance) où les données ne doivent pas sortir.
Curieux et étudiants qui veulent comprendre le fonctionnement des LLM sans payer.
Utilisateurs Mac Apple Silicon : l’architecture unified memory rend les Mac particulièrement performants pour du LLM local.
Qui devrait éviter Ollama : les utilisateurs grand public qui veulent juste chatter avec une IA (prenez ChatGPT gratuit ou Claude), les machines anciennes avec moins de 8 Go de RAM (trop lent).
Problèmes fréquents et solutions
« Out of memory » au lancement d’un gros modèle. Votre RAM est insuffisante. Prenez un modèle plus petit (phi3 plutôt que mixtral) ou ajoutez de la RAM. Sur Mac, fermez les apps lourdes (Chrome, Slack) avant de lancer un 70B.
Réponses très lentes (moins de 3 tokens/s). Votre GPU n’est pas utilisé. Sur Linux/Windows NVIDIA, vérifiez que les drivers CUDA sont à jour. Sur Mac, c’est automatique via Metal.
Le modèle répond en anglais alors que je pose la question en français. Certains modèles (comme Llama 3 8B) ont tendance à basculer. Précisez dans le prompt : « Réponds en français. » ou utilisez Mistral qui gère mieux le français natif.
« Model not found ». Vérifiez l’orthographe exacte avec ollama list. Les noms sont sensibles à la casse et à la version (ex: llama3.3 vs llama3).
Consommation disque qui explose. Chaque modèle fait 2-40 Go. Supprimez ceux que vous n’utilisez plus avec ollama rm nom_du_modele. Les modèles sont stockés dans ~/.ollama/models sur Mac/Linux.
Ollama vs LM Studio : quelle alternative ?
LM Studio est le principal concurrent d’Ollama. C’est aussi un runtime local avec une approche différente :
- LM Studio offre une interface graphique complète dès l’installation, gère facilement les modèles GGUF (format fichier), a une interface chat native. Il cible les utilisateurs moins techniques.
- Ollama est orienté ligne de commande et API, plus simple à intégrer dans un workflow de dev ou un script automatisé. Écosystème d’outils tiers (Open WebUI, etc.) plus fourni.
Si vous voulez juste chatter en local avec une belle interface, prenez LM Studio. Si vous voulez intégrer un LLM dans vos outils ou automatiser, prenez Ollama. Les deux sont gratuits et compatibles avec les mêmes modèles.
Mettre à jour Ollama et ses modèles
Ollama se met à jour automatiquement sur Mac (via l’app) et Windows (via le service). Sur Linux, relancez le script d’installation pour mettre à jour.
Pour mettre à jour un modèle spécifique vers la dernière version : ollama pull nom_du_modele. Cela télécharge la nouvelle version si elle existe, sinon ne fait rien.
Les modèles évoluent vite. Llama 3.3 a remplacé Llama 3.1 en décembre 2025. Mistral publie régulièrement des updates. Vérifiez une fois par mois.
Verdict
Ollama est devenu le standard pour faire tourner des LLM en local. L’installation prend 2 minutes, l’API est compatible OpenAI, le catalogue de modèles couvre tous les cas. Sur une machine moderne, les performances sont correctes pour un usage quotidien.
Ce n’est pas un remplaçant de ChatGPT Plus ou Claude Pro pour 100% des besoins, mais pour la confidentialité, les scripts de dev, et le traitement batch, c’est sans équivalent à ce prix (gratuit).
Note : 9/10. Le meilleur moyen de faire tourner un LLM sur sa machine en 2026.