Mettre un RAG en production : chunking, embeddings et reranking

Un RAG de démonstration se monte en une après-midi. Un RAG qui répond juste sur des milliers de documents réels, c'est un autre métier. Le modèle de langage est rarement le maillon faible : c'est la récupération (retrieval) qui fait ou défait la qualité. Voici les leviers qui comptent en production.

Le chunking, premier facteur de qualité

Un mauvais découpage condamne tout le reste. Quelques principes :

Découpez sur la structure, pas au caractère près : par section, paragraphe ou titre, pour ne pas couper une idée en deux.
Ajoutez du chevauchement (overlap) entre chunks, pour ne pas perdre le contexte aux frontières.
Enrichissez chaque chunk de métadonnées : source, date, titre de section. Elles servent au filtrage et à la citation.
Adaptez la taille au contenu : un contrat juridique ne se découpe pas comme une FAQ.

Recherche hybride : vecteurs + mots-clés

La recherche purement vectorielle rate les correspondances exactes (références produit, codes, noms propres). La recherche par mots-clés (BM25) rate le sens. La recherche hybride combine les deux et fusionne les scores : c'est presque toujours supérieur à l'une ou l'autre seule.

Le reranking, le levier sous-estimé

La recherche initiale est rapide mais grossière : elle remonte 20-50 candidats approximatifs. Un reranker (un modèle dédié, type cross-encoder) repasse ensuite sur ces candidats pour les réordonner finement, et on ne garde que le top 3-5. Ce second filtre améliore nettement la pertinence pour un coût modéré. Pattern recommandé : retrieval large → rerank → top-k serré.

Mesurer, sinon vous optimisez à l'aveugle

Sans métriques, chaque « amélioration » est une intuition. Construisez un petit jeu de questions-réponses de référence et mesurez :

Recall@k : la bonne info est-elle dans les k morceaux récupérés ? (le plus important — si le retrieval rate, le LLM ne peut pas rattraper.)
Pertinence des passages remontés.
Fidélité de la réponse aux sources (pas d'invention).

Isolez l'évaluation du retrieval de celle de la génération : ça vous dit quel maillon corriger.

Les détails de production qui font la différence

Citations : faites pointer chaque réponse vers ses sources, pour la confiance et l'audit.
Mise à jour : prévoyez la réindexation quand les documents changent.
Cas vide : si rien de pertinent n'est trouvé, répondez « je ne sais pas » plutôt que d'inventer.
Cache : mettez en cache les embeddings et les requêtes fréquentes pour le coût et la latence.

À retenir

En production, le RAG se gagne sur le retrieval, pas sur le LLM. Soignez le chunking et la qualité des données, passez en recherche hybride, ajoutez un reranker pour resserrer le top-k. Surtout, mesurez : un jeu d'éval distinguant retrieval et génération vous évite d'optimiser à l'aveugle. Et gérez les détails — citations, réindexation, cas vide — qui transforment un prototype en système de confiance.

Mettre un RAG en production : chunking, embeddings et reranking

Le chunking, premier facteur de qualité

Recherche hybride : vecteurs + mots-clés

Le reranking, le levier sous-estimé

Mesurer, sinon vous optimisez à l'aveugle

Les détails de production qui font la différence

À retenir

Articles liés

Le RAG expliqué : faire répondre une IA sur vos propres documents

Sécuriser une application LLM : prompt injection et fuites de données

Évaluer et fiabiliser un système LLM : évals et garde-fous