Mettre un RAG en production : chunking, embeddings et reranking
- 01La qualité d'un RAG se joue d'abord sur le découpage et la qualité des données, pas sur le LLM.
- 02Une recherche hybride (vecteurs + mots-clés) puis un reranker améliore nettement la pertinence.
- 03Sans évaluation chiffrée, vous optimisez à l'aveugle : mesurez le retrieval avant tout.
Un RAG de démonstration se monte en une après-midi. Un RAG qui répond juste sur des milliers de documents réels, c'est un autre métier. Le modèle de langage est rarement le maillon faible : c'est la récupération (retrieval) qui fait ou défait la qualité. Voici les leviers qui comptent en production.
Le chunking, premier facteur de qualité
Un mauvais découpage condamne tout le reste. Quelques principes :
- Découpez sur la structure, pas au caractère près : par section, paragraphe ou titre, pour ne pas couper une idée en deux.
- Ajoutez du chevauchement (overlap) entre chunks, pour ne pas perdre le contexte aux frontières.
- Enrichissez chaque chunk de métadonnées : source, date, titre de section. Elles servent au filtrage et à la citation.
- Adaptez la taille au contenu : un contrat juridique ne se découpe pas comme une FAQ.
Recherche hybride : vecteurs + mots-clés
La recherche purement vectorielle rate les correspondances exactes (références produit, codes, noms propres). La recherche par mots-clés (BM25) rate le sens. La recherche hybride combine les deux et fusionne les scores : c'est presque toujours supérieur à l'une ou l'autre seule.
Le reranking, le levier sous-estimé
La recherche initiale est rapide mais grossière : elle remonte 20-50 candidats approximatifs. Un reranker (un modèle dédié, type cross-encoder) repasse ensuite sur ces candidats pour les réordonner finement, et on ne garde que le top 3-5. Ce second filtre améliore nettement la pertinence pour un coût modéré. Pattern recommandé : retrieval large → rerank → top-k serré.
Mesurer, sinon vous optimisez à l'aveugle
Sans métriques, chaque « amélioration » est une intuition. Construisez un petit jeu de questions-réponses de référence et mesurez :
- Recall@k : la bonne info est-elle dans les k morceaux récupérés ? (le plus important — si le retrieval rate, le LLM ne peut pas rattraper.)
- Pertinence des passages remontés.
- Fidélité de la réponse aux sources (pas d'invention).
Isolez l'évaluation du retrieval de celle de la génération : ça vous dit quel maillon corriger.
Les détails de production qui font la différence
- Citations : faites pointer chaque réponse vers ses sources, pour la confiance et l'audit.
- Mise à jour : prévoyez la réindexation quand les documents changent.
- Cas vide : si rien de pertinent n'est trouvé, répondez « je ne sais pas » plutôt que d'inventer.
- Cache : mettez en cache les embeddings et les requêtes fréquentes pour le coût et la latence.
À retenir
En production, le RAG se gagne sur le retrieval, pas sur le LLM. Soignez le chunking et la qualité des données, passez en recherche hybride, ajoutez un reranker pour resserrer le top-k. Surtout, mesurez : un jeu d'éval distinguant retrieval et génération vous évite d'optimiser à l'aveugle. Et gérez les détails — citations, réindexation, cas vide — qui transforment un prototype en système de confiance.
Articles liés
Le RAG expliqué : faire répondre une IA sur vos propres documents
Comment une IA peut répondre à partir de vos PDF, notes et fiches produit sans tout réapprendre. Le principe du RAG, étape par étape.
Sécuriser une application LLM : prompt injection et fuites de données
Les apps IA ouvrent une surface d'attaque nouvelle. Prompt injection, exfiltration de données, outils détournés : les risques et les parades.
Évaluer et fiabiliser un système LLM : évals et garde-fous
« Ça a l'air de marcher » n'est pas une métrique. Comment mesurer la qualité d'un système LLM et le rendre fiable en production.