Ollama : faire tourner les LLM en local pour vos workflows de développement

Station de développement isolée faisant tourner un LLM Ollama en local sur un ordinateur portable

Ollama remet le LLM (Large Language Model) sur votre disque dur, et le cloud n’est plus la seule porte d’entrée vers les modèles génératifs en 2026. Pour un développeur qui jongle entre Claude, GPT et des bouts de code confidentiels, l’idée d’un modèle qui tourne sans jamais sortir de la machine a quitté le rayon « gadget » pour rejoindre celui des outils sérieux. Cet article vous donne le mode d’emploi opérationnel : ce qu’Ollama fait précisément, comment l’installer en dix minutes sur Mac, Linux ou Windows, quels modèles tirer en 2026, et comment brancher tout ça sur VS Code, Claude Code ou n8n.

Station de développement isolée faisant tourner un LLM Ollama en local sur un ordinateur portable

Ollama, c’est quoi exactement

Une couche au-dessus de llama.cpp pensée pour l’usage

Ollama est un runner de modèles open source qui empaquette llama.cpp (le moteur d’inference C++ qui sait charger des modèles quantisés sur CPU et GPU) avec une API HTTP locale, un registre de modèles préemballés, et une CLI qui se lit comme Docker. Là où llama.cpp demande de connaître les flags de compilation, le format gguf et la gymnastique de la quantization (compression d’un modèle pour le faire tenir en mémoire avec une perte de qualité contrôlée), Ollama vous laisse taper ollama run llama3.3 et vous obtenez un prompt fonctionnel.

Cette ergonomie change tout. La majorité des développeurs francophones que vous croisez en 2026 sur des sujets de LLM local utilisent Ollama, pas llama.cpp nu. LM Studio joue dans le même registre côté grand public, mais avec un parti pris GUI qui colle moins bien aux workflows de dev scriptables.

L’API HTTP locale et le concept de Modelfile

Une fois Ollama lancé, il expose une API HTTP sur localhost:11434. Elle parle JSON, suit en partie la convention OpenAI /v1/chat/completions, et accepte aussi sa propre route /api/generate. C’est cette API qui rend Ollama vraiment utile : tout client capable de pointer vers une URL custom (Continue, Cursor, n8n, vos scripts Python) peut consommer un modèle local comme s’il s’agissait d’OpenAI.

Le second concept clé, c’est le Modelfile : un fichier descripteur à la Dockerfile qui empile un modèle de base, un system prompt, des paramètres d’inférence et un template de chat. Vous pouvez créer un modèle « assistant code Python » prêt à l’emploi en quelques lignes :

FROM qwen2.5-coder:14b
SYSTEM "Vous êtes un assistant Python senior. Réponses courtes, du code testable, pas de blabla."
PARAMETER temperature 0.2
PARAMETER num_ctx 16384

Un ollama create py-senior -f Modelfile, et vous avez un modèle utilitaire réutilisable, scriptable, et versionnable en Git.

Ce que ça résout : confidentialité, coût zéro, dev offline

Trois bénéfices justifient la bascule. Vos données de prompt ne quittent jamais la machine, ce qui ouvre des cas d’usage que le cloud ne peut pas couvrir : code sous accord de confidentialité, données de santé, dossiers juridiques. Le coût marginal d’un appel tombe à zéro une fois le matériel amorti ; un dev qui consomme 200 millions de tokens par mois passe d’une facture API mensuelle à une facture électrique négligeable. Enfin, vous codez dans le train, en avion, sur un site isolé, ou pendant la prochaine panne d’OpenAI sans interruption.

Installation et premier modèle

Téléchargement et exécution d'un modèle Llama via la commande ollama pull dans un terminal

Installer Ollama sur Mac, Linux et Windows

Sur macOS, le plus rapide reste brew install ollama ou le .dmg officiel. Sur Linux, une seule ligne suffit :

curl -fsSL https://ollama.com/install.sh | sh

Sur Windows, l’installeur natif (depuis ollama.com) gère le service en arrière-plan. WSL2 reste une option si vous travaillez déjà sous Linux dans Windows. Une fois installé, vérifiez avec ollama --version ; les versions stables 2026 dépassent désormais la 0.5.x avec un support officiel des modèles long-contexte et de la sortie structurée JSON.

Choisir son premier modèle

Pour un premier essai sans drame, ollama pull llama3.3:8b reste un bon repère : 8 milliards de paramètres, environ 5 Go sur le disque, tient sur 8 Go de VRAM (Video RAM, la mémoire embarquée d’un GPU) ou un Mac M1/M2 16 Go. Lancez ensuite ollama run llama3.3 pour discuter en CLI.

Premiers tests via CLI puis via API

Une fois le modèle chargé, vous pouvez sortir du REPL et frapper l’API HTTP directement :

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Écris une fonction Python qui valide un email RFC 5322.",
  "stream": false
}'

Réponse JSON, latence locale, aucun token sortant. Le mode "stream": true renvoie les chunks SSE pour brancher une UI fluide.

Les modèles 2026 qui valent le coup pour un dev

Tous les modèles ne se valent pas pour le code. Voici une grille d’orientation issue de tests menés début 2026 sur du Python, du TypeScript et du Go.

ModèleTailleVRAM utileScore code (subjectif)Vitesse (M3 Pro)
Qwen2.5-Coder 14B9 Go12 GoTrès bon~35 t/s
DeepSeek-Coder-V2 16B10 Go16 GoExcellent~25 t/s
Llama 3.3 8B5 Go8 GoCorrect~50 t/s
Mistral Small 22B13 Go16 GoBon généraliste~20 t/s
Phi-3.5 mini 3.8B2,3 Go4 GoLéger~80 t/s

Modèles généralistes

Llama 3.3 reste la valeur sûre pour le chat général. Mistral Small 22B fait mieux en raisonnement mais demande plus de mémoire. Qwen 2.5 32B, si vous avez la VRAM, encaisse des prompts complexes en français nettement mieux que Llama.

Modèles spécialisés code

DeepSeek-Coder-V2 16B est, en pratique, le meilleur compromis qualité-taille pour générer du code en local en 2026. Qwen2.5-Coder 14B suit de très près et tourne plus vite. Codestral 22B (Mistral) reste solide pour qui dispose d’une RTX 4090 ou d’un M3 Max.

Modèles légers pour CPU et laptop

Sur un laptop sans GPU dédié, Phi-3.5 mini 3.8B et Gemma 2 2B restent utilisables en CPU pur. Vous n’aurez pas la qualité d’un modèle 14B, mais la latence reste correcte pour de l’autocomplétion ou des résumés courts.

Trois cas d’usage concrets

VS Code branché sur Ollama affichant une suggestion d'autocomplétion offline sur un projet Node

Autocomplétion offline dans VS Code via Continue

L’extension Continue (docs.continue.dev) accepte n’importe quel endpoint compatible OpenAI. Pointez-la sur http://localhost:11434/v1 avec qwen2.5-coder:14b comme modèle de complétion et nomic-embed-text comme modèle d’embeddings, et vous avez Copilot sans Copilot. La latence reste sous les 200 ms par suggestion sur un Mac M3 Pro.

Génération de tests sur du code sensible

Un script Node de quinze lignes qui pipe un fichier source vers /api/generate avec un system prompt « génère les tests Jest manquants » suffit pour traiter un repo entier sans rien envoyer en dehors. Combinez avec le pilier sur la génération de tests sans dette pour cadrer la stratégie globale.

RAG local sur documentation interne ou base de code

Le RAG (Retrieval Augmented Generation, technique qui injecte des extraits de votre base documentaire dans le prompt avant que le modèle ne réponde) tient en local avec Ollama, un modèle d’embeddings comme nomic-embed-text, et un vector store léger type chroma ou qdrant. Vous gagnez un assistant qui connaît votre codebase ou votre documentation interne sans qu’aucun fichier ne fuite.

Intégrer Ollama dans son écosystème

Avec Claude Code en mode hybride

Claude Code reste cloud par défaut, mais rien n’empêche de coupler les deux. On utilise Claude pour les raisonnements complexes (refactor d’architecture, debug profond) et Ollama pour les tâches répétitives qui n’ont pas besoin d’un modèle frontière (génération de tests boilerplate, reformulation de commits, traduction de docstrings). Le pilier stack IA dev 100% locale (Ollama + Open WebUI + n8n) détaille cette logique hybride.

Avec n8n pour orchestrer des agents

n8n dispose depuis 2024 d’un node Ollama natif qui consomme l’API locale. Vous pouvez monter un agent qui scrape une veille tech, fait résumer chaque article par Llama 3.3, et pousse une fiche dans Notion — sans aucun appel cloud. Le détail dans le guide pour orchestrer Ollama avec n8n.

Avec Open WebUI et OpenClaw

Open WebUI offre une interface chat à la ChatGPT branchée sur Ollama. Pour un usage agent système (notifications GitHub, capture Obsidian depuis Telegram), OpenClaw, l’assistant IA open source accepte Ollama comme provider de modèle. Pour un setup MCP, voyez comment brancher un serveur MCP sur Ollama.

Limites honnêtes en 2026

Performance vs Claude Sonnet ou GPT

Soyons clairs : un Llama 3.3 70B quantisé reste loin derrière Claude Sonnet 4.5 ou GPT-5 sur des tâches de raisonnement complexe et de planification long terme. Pour du code clé en main sur un projet propre et bien décrit, l’écart se resserre. Pour du debug exploratoire dans un legacy mal documenté, le cloud garde l’avantage.

Coût matériel

Pour faire tourner du 14B confortablement, comptez 16 Go de VRAM minimum. Un Mac M3 Pro 18 Go d’unified memory s’en sort très bien et reste portable. Côté PC, une RTX 4070 Ti 16 Go ou une 4090 24 Go ouvrent les portes des modèles 30B+. Au-delà, on parle workstations sérieuses ou cloud GPU à la demande.

Quand le cloud reste plus pertinent

Pour un développeur isolé qui code des projets variés sans contrainte de confidentialité, l’abonnement Claude Pro ou ChatGPT Plus reste imbattable en rapport qualité/effort. Ollama brille quand vous avez un volume soutenu, des contraintes RGPD strictes, ou l’envie d’avoir une stack qui survit à la prochaine panne fournisseur. Pour les fondamentaux d’un projet web, choisissez en fonction de l’enjeu, pas de la mode.

Questions fréquentes

Qu’est-ce qu’Ollama et à quoi ça sert ?

Ollama est un runner de modèles open source qui fait tourner des LLM en local sur votre machine. Il empaquette le moteur d’inference llama.cpp, expose une API HTTP compatible OpenAI sur localhost:11434, et fournit une CLI à la Docker pour télécharger et lancer des modèles d’une seule commande. Il sert quand vous avez besoin de confidentialité, de coût marginal nul, ou de travailler offline.

Quel modèle Ollama choisir pour un développeur en 2026 ?

Pour du code en local en 2026, le meilleur compromis est DeepSeek-Coder-V2 16B si vous avez 16 Go de VRAM, sinon Qwen2.5-Coder 14B qui tourne plus vite avec une qualité très proche. Pour un usage généraliste mêlant chat et code, Llama 3.3 8B reste un excellent point d’entrée. Sur laptop sans GPU, Phi-3.5 mini 3.8B fait le job pour des tâches simples.

Combien de VRAM faut-il pour faire tourner Ollama ?

Pour un modèle 7B à 8B en quantisation Q4, comptez 6 à 8 Go de VRAM. Pour un 13B à 14B, 12 à 16 Go. Pour un 30B+, 24 Go minimum. Sur Mac avec unified memory, ces chiffres s’appliquent à la RAM totale puisque CPU et GPU partagent la même mémoire. Sans GPU dédié, des petits modèles comme Phi-3.5 mini ou Gemma 2 tournent en CPU sur 8 à 16 Go de RAM.

Peut-on utiliser Ollama avec Claude Code ou Cursor ?

Cursor accepte de pointer vers un endpoint OpenAI-compatible custom, donc oui via http://localhost:11434/v1. Claude Code reste branché sur l’API Anthropic, mais vous pouvez le coupler à Ollama via des hooks, des scripts externes, ou un workflow n8n qui aiguille selon la tâche. La logique hybride local/cloud est détaillée dans le pilier ai-local de WebCreatid.

Ollama est-il gratuit et open source ?

Oui. Ollama est publié sous licence MIT et le code source vit sur github.com/ollama/ollama. Les modèles téléchargés ont leurs propres licences (Llama, Apache 2.0, MIT selon le modèle), et beaucoup permettent un usage commercial sans restriction. Aucun compte, aucun abonnement, aucune télémétrie obligatoire.

Vous voulez intégrer un LLM local dans votre stack sans vous noyer dans la config GPU et les arbitrages de modèle ? On peut cadrer la stack ensemble.

0 réponses

Laisser un commentaire

Rejoindre la discussion?
N’hésitez pas à contribuer !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *