En clair
Définition vulgarisée
Technique qui consiste à donner à un LLM accès aux documents propres de l'entreprise (PDF, base de connaissances, wiki) pour qu'il puisse répondre en se basant sur des sources factuelles plutôt qu'en hallucinant.
Pour aller plus loin
Détail technique
Acronyme de Retrieval-Augmented Generation. Architecture en 3 étapes : (1) Ingestion : les documents de l'entreprise sont découpés en chunks et transformés en vecteurs via un modèle d'embedding (text-embedding-3-large, voyage-3, etc.) stockés dans une base vectorielle (Pinecone, Qdrant, Weaviate, pgvector). (2) Retrieval : à chaque question, on cherche les chunks les plus similaires (cosine similarity) et on les injecte dans le prompt. (3) Generation : le LLM répond en citant ses sources. Élimine 80% des hallucinations sur les sujets métier.
Exemple concret
Cas business
Une PME assurance déploie un agent IA basé sur RAG, alimenté avec tous ses contrats-types, conditions générales, jurisprudence. Les commerciaux interrogent l'agent en langage naturel et reçoivent des réponses sourcées avec citation des clauses exactes.
Piège à éviter
Erreur fréquente
RAG nécessite une stratégie de chunking adaptée (taille, overlap, métadonnées). Mal configuré, il retourne du bruit. Le choix du modèle d'embedding multilingue est critique pour le français.
Besoin d'un avis concret sur RAG pour votre PME ?
On a déployé RAG en interne avant de le proposer à nos clients. Discutons de votre cas en 30 minutes.