ARCHITECTURE • LLM • RAG

Intelligence artificielle : LLM, RAG et architectures d’intégration

Cette page détaille les briques techniques d’un système d’intelligence artificielle moderne : modèles (LLM), accès aux données (RAG), orchestration, intégration et contraintes réelles de production. L’objectif est de comprendre comment une IA fonctionne concrètement dans un environnement métier.

// MANIFESTO

Cas d'usage : support, contenu, assistant interne

Quatre architectures fréquentes en production : chaque bloc décrit le fonctionnement technique (données, modèle, orchestration) plutôt qu’un argumentaire commercial.

Système conversationnel (RAG + LLM)

Un système conversationnel s’appuie sur une base documentaire (RAG) et un modèle LLM pour produire des réponses contextualisées. Les passages pertinents sont récupérés avant génération ; des garde-fous (prompts système, filtrage, refus hors base) limitent les hallucinations. La latence et le coût par requête dépendent du modèle, du volume de contexte et du chemin d’inférence.

Extraction & structuration documentaire

Un pipeline combine lecture de documents (PDF, scans océrisés), modèle de compréhension et sortie structurée (JSON, champs typés). Des règles métier ou une validation humaine sécurisent les champs sensibles. L’intérêt est la réduction des erreurs de saisie et la standardisation des lots répétitifs — le débit réel se mesure au profil documentaire et à la qualité des sources.

Génération assistée de contenu

Le modèle produit un premier jet ; un humain valide exactitude, ton et conformité avant publication. Les gabarits stables (fiches produit, variantes) se prêtent bien au flux ; les contenus factuels ou réglementés exigent une relecture systématique. Les limites : hallucinations sur chiffres et dates, dérive de style si le prompt n’est pas cadré.

Assistant interne & base de connaissance

Les procédures et documents indexés passent par la recherche sémantique puis le LLM pour synthétiser avec citations ou extraits. Les droits d’accès (qui peut voir quels corpus) structurent l’architecture autant que le choix du modèle. Utile pour l’onboarding et la recherche d’information ; sans cloisonnement, le risque de fuite contextuelle augmente.

Pipeline : audit data, intégration, monitoring

Audit Data

L’analyse consiste à inventorier les sources (CRM, bases relationnelles, fichiers tabulaires, dépôts documentaires) et à mesurer qualité, duplication et sensibilité. Sans corpus propre et périmètre clair, le RAG recycle du bruit : la phase d’audit fixe ce qui est indexable, anonymisable ou hors scope.

Engineering

Le choix du modèle (GPT-4, Claude, Mistral, modèles open weights) dépend de la fenêtre de contexte, du coût par token, de la latence et des clauses de résidence des données. L’architecture RAG relie retrieval et génération sans réentraîner les poids à chaque mise à jour documentaire — à condition de dimensionner index, embeddings et fraîcheur.

Intégration

L’intégration repose sur des connecteurs API (CRM, messagerie, bases internes, webhooks) et sur des politiques d’authentification. Chaque flux doit être idempotent où nécessaire et observable (logs, traçabilité des appels modèle). L’objectif est un graphe de services fiable, pas une accumulation de scripts ad hoc.

Training

Le prompt engineering et les schémas de sortie (JSON, listes fermées) encadrent le style et le format des réponses. Affiner un ton ou des refus systématiques passe par des jeux de tests régressifs plutôt que par l’intuition. Le fine-tuning n’est envisagé qu’une fois les limites du RAG et des prompts bien cartographiées.

Monitoring & Optimisation

Les journaux d’appels, latences p95/p99, taux d’erreur et satisfaction annotée alimentent des itérations. Les dashboards exposent coût token, volume de retrieval et drift des contenus indexés. Un système IA en production est un service : il demande des SLO, des alertes et des revues régulières des prompts et des index.

Scalabilité

La montée en charge repose sur la mise en file des requêtes, le cache des réponses idempotentes, le partitionnement des index et le plafonnement des appels fournisseur. L’architecture impose des quotas et du backoff pour éviter les cascades de coûts lors des pics de trafic.

LLM, RAG, orchestration : le socle technique

LLM : GPT-4o, Claude, Mistral

Le modèle se choisit selon la fenêtre de contexte, la latence, le coût token et les contraintes de souveraineté — pas selon une étiquette commerciale. La validation se fait sur des jeux de prompts représentatifs et des jeux de documents réels, avec mesure des échecs (hallucination, refus, hors sujet).

RAG sur corpus métier

Embeddings et recherche vectorielle : le modèle s’appuie sur des extraits de la base documentaire, sans réentraîner les poids à chaque mise à jour du contenu. Les limites incluent le découpage des chunks, les conflits entre deux sources et la fraîcheur des index. Support, FAQ interne et procédures sont des cas d’usage typiques lorsque le périmètre documentaire est clair.

Orchestration & garde-fous

Vercel AI SDK, LangChain ou pipelines maison : streaming, appels d’outils, mémoire de session, filtres PII et journaux d’audit. Le fine-tuning n’intervient en général qu’après épuisement du couple RAG + prompts structurés — coût et risque de sur-adaptation à anticiper.

Données, embeddings et expérience utilisateur

RGPD, API entreprise et limites du modèle

Les systèmes IA en production doivent s’appuyer sur des fournisseurs dont les conditions d’usage excluent l’entraînement des modèles publics sur les contenus clients lorsque le contexte l’exige (offres entreprise, contrats DPAs). Les flux sensibles restent chiffrés en transit ; la classification des données détermine où elles peuvent transiter.

Le RGPD impose minimisation, durée de conservation et droit à l’effacement : l’architecture doit tracer les embeddings, les journaux et les réponses pour permettre une suppression cohérente. Des filtres de sortie et des listes d’interdiction limitent l’exfiltration d’informations confidentielles ; la politique de rétention des prompts et des logs fait partie du même périmètre.

En RAG, l’accès au corpus se fait en lecture sur des index ou des connecteurs : les documents ne sont pas recopiés arbitrairement hors périmètre — le risque vient surtout d’une mauvaise segmentation des droits ou d’un retrieval trop large. Le cloisonnement par tenant, par rôle ou par espace documentaire est une contrainte d’architecture, pas un simple réglage UI.

FAQ intégration IA (LLM, RAG, données)