Faire tourner un modèle IA en local avec Ollama (gratuit et privé)

Tous les usages de l'IA ne justifient pas d'envoyer vos données chez un fournisseur cloud. Pour le confidentiel, l'expérimentation ou simplement pour ne pas payer à l'usage, faire tourner un modèle en local est une vraie option. Ollama rend l'opération accessible : deux commandes et vous discutez avec un LLM sur votre propre machine.

Ce dont vous avez besoin

Un ordinateur récent. Un GPU aide beaucoup, mais de petits modèles tournent sur CPU.
De la RAM : comptez ~8 Go pour un modèle 7B, plus pour les gros.
Quelques gigas de disque par modèle téléchargé.

La règle simple : plus le modèle est gros (mesuré en milliards de paramètres, « 7B », « 14B »…), plus il est capable, mais plus il demande de mémoire et tourne lentement.

Installer et lancer un modèle

Téléchargez Ollama depuis son site, puis dans un terminal :

ollama run mistral

Cette seule commande télécharge le modèle la première fois, puis ouvre une conversation. Pour essayer d'autres modèles : ollama run llama3.2 ou ollama run qwen2.5. Pour voir ce que vous avez installé : ollama list.

Le vrai intérêt : l'API locale

Au-delà du chat en terminal, Ollama expose une API locale sur http://localhost:11434, compatible avec le format d'OpenAI. Concrètement, vous pouvez pointer une app existante vers cette adresse sans réécrire votre code :

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "mistral",
  "messages": [{"role": "user", "content": "Résume ce texte en une phrase : ..."}]
}'

C'est ce qui permet de brancher Ollama dans n8n (via HTTP Request), dans un RAG, ou dans n'importe quel outil attendant une API type OpenAI.

Choisir le bon modèle local

Petits modèles (1B–3B) : rapides, pour du tri, de la classification, des tâches simples.
Modèles moyens (7B–14B) : bon compromis pour rédaction, résumé, code léger.
Gros modèles (30B+) : capables, mais exigeants en matériel.

Commencez petit, montez en taille seulement si la qualité ne suffit pas.

Les limites à connaître

Un modèle local de 7B ne rivalisera pas avec les meilleurs modèles cloud sur les tâches complexes. Le local brille sur trois axes : confidentialité (rien ne sort), coût (pas de facturation à l'usage) et disponibilité (pas de dépendance réseau). Pour le raisonnement très poussé, le cloud garde l'avantage.

À retenir

Ollama installe et lance un LLM en local en une commande. Vos données restent chez vous, sans abonnement. Son API locale compatible OpenAI permet de le brancher dans vos outils sans changer le code. Démarrez avec un petit modèle, et réservez le local aux cas où confidentialité et coût priment sur la puissance brute.

Faire tourner un modèle IA en local avec Ollama (gratuit et privé)

Ce dont vous avez besoin

Installer et lancer un modèle

Le vrai intérêt : l'API locale

Choisir le bon modèle local

Les limites à connaître

À retenir

Articles liés

Une startup prétend avoir résolu un goulot d'étranglement majeur des modèles de langage

Sécuriser une application LLM : prompt injection et fuites de données

Le function calling : laisser une IA déclencher des actions