Définition technique
Technique qui combine un moteur de recherche (retrieval) et un LLM (generation) : on récupère des documents pertinents dans une base de connaissances (entreprise, site, FAQ), on les injecte dans le contexte du LLM, qui génère une réponse à partir de ces sources. Le RAG permet à l'IA d'utiliser des données à jour et privées sans réentraîner le modèle. Idéal pour des chatbots métier, assistants internes ou FAQ dynamiques. Les briques typiques : base vectorielle (embeddings), requête de recherche, mise en forme du contexte, appel LLM.
Comment ça fonctionne ?
L'utilisateur pose une question. Le système transforme la question en vecteur (embedding) et interroge une base vectorielle pour retrouver les passages les plus pertinents. Ces passages sont concaténés dans un prompt avec la question ; le LLM génère une réponse en s'appuyant sur ce contexte. Ainsi l'IA « lit » vos documents à la volée sans les avoir appris par cœur.
L'erreur classique à éviter
Indexer des documents mal structurés ou obsolètes, ce qui dégrade la pertinence. Contexte trop long envoyé au LLM (dépassement, coût, bruit). Ne pas filtrer les sources (confidentialité, qualité). Croire que le RAG supprime toute hallucination.
Impact business : pourquoi s'en soucier ?
Le RAG est l'argument clé pour « connecter l'IA aux données de l'entreprise » : vos procédures, votre catalogue, vos documents deviennent la source des réponses. Vous évitez les hallucinations sur des faits métier et vous gardez la maîtrise des données. Un chatbot RAG améliore le support client et l'onboarding sans exposer vos données à un entraînement externe. Investissement initial (indexation, pipelines) puis coûts maîtrisés (API LLM + hébergement base).
La règle d'or
Structurer et nettoyer les données avant indexation. Limiter la taille du contexte injecté et prioriser les passages les plus pertinents. Tester avec des questions réelles et itérer sur la qualité des réponses. Documenter les sources pour la traçabilité.