- 01Un token ≈ 4 caractères ou 0,75 mot : c'est l'unité que les IA comptent.
- 02Vous payez l'entrée (votre prompt + le contexte) ET la sortie (la réponse).
- 03Les coups coûteux : longs contextes répétés et gros modèles là où un petit suffirait.
Dès que vous passez des abonnements grand public aux API (par exemple pour brancher une IA dans vos outils), une notion revient partout : le token. Comprendre ce que c'est évite les mauvaises surprises sur la facture.
Qu'est-ce qu'un token ?
Un modèle de langage ne lit pas des mots, mais des morceaux de mots appelés tokens. L'ordre de grandeur à retenir :
- 1 token ≈ 4 caractères en anglais, un peu moins en français.
- 1 token ≈ 0,75 mot en moyenne.
- Une page de texte (≈ 500 mots) ≈ 650 à 750 tokens.
« automatisation » fait plusieurs tokens, « le » en fait un seul. Vous n'avez pas besoin de compter à la main : les plateformes affichent l'usage.
Vous payez l'entrée ET la sortie
C'est le point que tout le monde rate au début. Chaque requête facture deux choses :
- Les tokens d'entrée : tout ce que vous envoyez — votre question, mais aussi le contexte, les documents joints, l'historique de la conversation.
- Les tokens de sortie : la réponse générée par le modèle.
La sortie est souvent plus chère que l'entrée. Et l'entrée gonfle vite : si vous renvoyez tout l'historique d'une longue conversation à chaque message, vous repayez ce contexte à chaque fois.
Les trois pièges qui font grimper la facture
1. Le contexte répété. Dans une app qui rappelle 20 pages de documentation à chaque requête, ces 20 pages sont refacturées à chaque appel. Solution : n'envoyer que le passage pertinent (c'est tout l'intérêt du RAG).
2. Le gros modèle par défaut. Utiliser le modèle le plus puissant pour trier des emails, c'est payer une Ferrari pour aller chercher le pain. Réservez les gros modèles aux tâches qui le justifient.
3. Les réponses trop longues. Si vous n'imposez pas de limite, le modèle peut produire des pavés. Demandez explicitement « en 3 phrases » quand c'est suffisant.
Les réflexes pour garder la maîtrise
- Fixez une limite de tokens de sortie (
max_tokens) dans vos appels API. - Choisissez le plus petit modèle qui fait le travail correctement.
- N'envoyez que le contexte utile, pas tout « au cas où ».
- Surveillez votre tableau de bord d'usage les premiers jours.
- Mettez en cache ce qui se répète, si la plateforme le permet.
À retenir
Un token, c'est environ 4 caractères. Vous payez ce que vous envoyez et ce que le modèle répond. Les coûts explosent à cause des contextes longs répétés et des modèles surdimensionnés. Limitez la sortie, choisissez la bonne taille de modèle, n'envoyez que l'utile — et regardez votre consommation pendant les premiers jours.
Articles liés

Anthropic suspend son modèle de facturation basé sur les tokens pour son SDK Agent
Anthropic interrompt temporairement son système de facturation par tokens pour son SDK Agent Claude, une décision qui aurait pu augmenter significativement les coûts pour les utilisateurs intensifs.
Le function calling : laisser une IA déclencher des actions
Comment une IA passe de « parler » à « agir » : interroger une base, envoyer un mail, appeler une API. Le mécanisme du function calling.
Faire relire et corriger ses textes pro par une IA
Devis, mails délicats, pages de site : comment utiliser une IA comme relecteur exigeant, sans qu'elle dénature votre voix.