Faire tourner un modèle IA en local avec Ollama (gratuit et privé)
- 01Ollama installe et fait tourner des LLM en local en deux commandes.
- 02Vos données ne quittent jamais votre machine : idéal pour le confidentiel.
- 03Une API locale compatible OpenAI permet de brancher vos apps sans changer le code.
Tous les usages de l'IA ne justifient pas d'envoyer vos données chez un fournisseur cloud. Pour le confidentiel, l'expérimentation ou simplement pour ne pas payer à l'usage, faire tourner un modèle en local est une vraie option. Ollama rend l'opération accessible : deux commandes et vous discutez avec un LLM sur votre propre machine.
Ce dont vous avez besoin
- Un ordinateur récent. Un GPU aide beaucoup, mais de petits modèles tournent sur CPU.
- De la RAM : comptez ~8 Go pour un modèle 7B, plus pour les gros.
- Quelques gigas de disque par modèle téléchargé.
La règle simple : plus le modèle est gros (mesuré en milliards de paramètres, « 7B », « 14B »…), plus il est capable, mais plus il demande de mémoire et tourne lentement.
Installer et lancer un modèle
Téléchargez Ollama depuis son site, puis dans un terminal :
ollama run mistral
Cette seule commande télécharge le modèle la première fois, puis ouvre une conversation. Pour essayer d'autres modèles : ollama run llama3.2 ou ollama run qwen2.5. Pour voir ce que vous avez installé : ollama list.
Le vrai intérêt : l'API locale
Au-delà du chat en terminal, Ollama expose une API locale sur http://localhost:11434, compatible avec le format d'OpenAI. Concrètement, vous pouvez pointer une app existante vers cette adresse sans réécrire votre code :
curl http://localhost:11434/v1/chat/completions -d '{
"model": "mistral",
"messages": [{"role": "user", "content": "Résume ce texte en une phrase : ..."}]
}'
C'est ce qui permet de brancher Ollama dans n8n (via HTTP Request), dans un RAG, ou dans n'importe quel outil attendant une API type OpenAI.
Choisir le bon modèle local
- Petits modèles (1B–3B) : rapides, pour du tri, de la classification, des tâches simples.
- Modèles moyens (7B–14B) : bon compromis pour rédaction, résumé, code léger.
- Gros modèles (30B+) : capables, mais exigeants en matériel.
Commencez petit, montez en taille seulement si la qualité ne suffit pas.
Les limites à connaître
Un modèle local de 7B ne rivalisera pas avec les meilleurs modèles cloud sur les tâches complexes. Le local brille sur trois axes : confidentialité (rien ne sort), coût (pas de facturation à l'usage) et disponibilité (pas de dépendance réseau). Pour le raisonnement très poussé, le cloud garde l'avantage.
À retenir
Ollama installe et lance un LLM en local en une commande. Vos données restent chez vous, sans abonnement. Son API locale compatible OpenAI permet de le brancher dans vos outils sans changer le code. Démarrez avec un petit modèle, et réservez le local aux cas où confidentialité et coût priment sur la puissance brute.
Articles liés

Une startup prétend avoir résolu un goulot d'étranglement majeur des modèles de langage
Analyse des allégations de Subquadratic, une startup basée à Miami, qui affirme avoir surmonté une limitation mathématique cruciale pour les grands modèles de langage (LLM), avec des premières preuves techniques présentées pour étayer ses revendications.
Sécuriser une application LLM : prompt injection et fuites de données
Les apps IA ouvrent une surface d'attaque nouvelle. Prompt injection, exfiltration de données, outils détournés : les risques et les parades.
Le function calling : laisser une IA déclencher des actions
Comment une IA passe de « parler » à « agir » : interroger une base, envoyer un mail, appeler une API. Le mécanisme du function calling.