ARCHITECTURE • LLM • RAG
Intelligence artificielle : LLM, RAG et architectures d’intégration
Cette page détaille les briques techniques d’un système d’intelligence artificielle moderne : modèles (LLM), accès aux données (RAG), orchestration, intégration et contraintes réelles de production. L’objectif est de comprendre comment une IA fonctionne concrètement dans un environnement métier.
Cas d'usage : support, contenu, assistant interne
Quatre architectures fréquentes en production : chaque bloc décrit le fonctionnement technique (données, modèle, orchestration) plutôt qu’un argumentaire commercial.
Système conversationnel (RAG + LLM)
Un système conversationnel s’appuie sur une base documentaire (RAG) et un modèle LLM pour produire des réponses contextualisées. Les passages pertinents sont récupérés avant génération ; des garde-fous (prompts système, filtrage, refus hors base) limitent les hallucinations. La latence et le coût par requête dépendent du modèle, du volume de contexte et du chemin d’inférence.
Extraction & structuration documentaire
Un pipeline combine lecture de documents (PDF, scans océrisés), modèle de compréhension et sortie structurée (JSON, champs typés). Des règles métier ou une validation humaine sécurisent les champs sensibles. L’intérêt est la réduction des erreurs de saisie et la standardisation des lots répétitifs — le débit réel se mesure au profil documentaire et à la qualité des sources.
Génération assistée de contenu
Le modèle produit un premier jet ; un humain valide exactitude, ton et conformité avant publication. Les gabarits stables (fiches produit, variantes) se prêtent bien au flux ; les contenus factuels ou réglementés exigent une relecture systématique. Les limites : hallucinations sur chiffres et dates, dérive de style si le prompt n’est pas cadré.
Assistant interne & base de connaissance
Les procédures et documents indexés passent par la recherche sémantique puis le LLM pour synthétiser avec citations ou extraits. Les droits d’accès (qui peut voir quels corpus) structurent l’architecture autant que le choix du modèle. Utile pour l’onboarding et la recherche d’information ; sans cloisonnement, le risque de fuite contextuelle augmente.
Pipeline : audit data, intégration, monitoring
Audit Data
Engineering
Intégration
Training
Monitoring & Optimisation
Scalabilité
LLM, RAG, orchestration : le socle technique
LLM : GPT-4o, Claude, Mistral
Le modèle se choisit selon la fenêtre de contexte, la latence, le coût token et les contraintes de souveraineté — pas selon une étiquette commerciale. La validation se fait sur des jeux de prompts représentatifs et des jeux de documents réels, avec mesure des échecs (hallucination, refus, hors sujet).
RAG sur corpus métier
Embeddings et recherche vectorielle : le modèle s’appuie sur des extraits de la base documentaire, sans réentraîner les poids à chaque mise à jour du contenu. Les limites incluent le découpage des chunks, les conflits entre deux sources et la fraîcheur des index. Support, FAQ interne et procédures sont des cas d’usage typiques lorsque le périmètre documentaire est clair.
Orchestration & garde-fous
Vercel AI SDK, LangChain ou pipelines maison : streaming, appels d’outils, mémoire de session, filtres PII et journaux d’audit. Le fine-tuning n’intervient en général qu’après épuisement du couple RAG + prompts structurés — coût et risque de sur-adaptation à anticiper.
Données, embeddings et expérience utilisateur
RGPD, API entreprise et limites du modèle
Les systèmes IA en production doivent s’appuyer sur des fournisseurs dont les conditions d’usage excluent l’entraînement des modèles publics sur les contenus clients lorsque le contexte l’exige (offres entreprise, contrats DPAs). Les flux sensibles restent chiffrés en transit ; la classification des données détermine où elles peuvent transiter.
Le RGPD impose minimisation, durée de conservation et droit à l’effacement : l’architecture doit tracer les embeddings, les journaux et les réponses pour permettre une suppression cohérente. Des filtres de sortie et des listes d’interdiction limitent l’exfiltration d’informations confidentielles ; la politique de rétention des prompts et des logs fait partie du même périmètre.
En RAG, l’accès au corpus se fait en lecture sur des index ou des connecteurs : les documents ne sont pas recopiés arbitrairement hors périmètre — le risque vient surtout d’une mauvaise segmentation des droits ou d’un retrieval trop large. Le cloisonnement par tenant, par rôle ou par espace documentaire est une contrainte d’architecture, pas un simple réglage UI.