← Retour au blog

RAG classique vs RAG par raisonnement

Comment on est passé d'un « tuyau » figé qui récupère des documents à des systèmes qui réfléchissent à ce qu'ils cherchent, vérifient ce qu'ils trouvent, et recommencent si nécessaire.

Pourquoi le RAG existe

Un grand modèle de langage (LLM) comme GPT, Claude ou Llama est entraîné sur un énorme corpus figé à une date donnée. Cela crée trois problèmes bien connus :

  • Connaissances figées : le modèle ne sait rien de ce qui s'est passé après sa date d'entraînement.
  • Pas d'accès à vos données privées : il ne connaît ni vos documents internes, ni votre base de connaissances, ni vos PDF.
  • Les hallucinations : faute de source, le modèle invente parfois des réponses plausibles mais fausses.

Le RAG (Retrieval-Augmented Generation), littéralement « génération augmentée par la récupération », répond à ces trois problèmes avec une idée simple : avant de répondre, on va d'abord chercher l'information pertinente dans une source externe, puis on la donne au modèle pour qu'il s'appuie dessus.

L'analogie classique : au lieu de répondre à un examen de mémoire, le modèle passe un examen « livre ouvert ». Il a le droit de consulter ses notes avant de rédiger.

Le terme et l'architecture de base ont été formalisés en 2020 par une équipe de Facebook AI (Lewis et al.), dans un article fondateur qui combinait un retriever (récupérateur) et un modèle génératif.

Partie 1 — Le RAG classique (ou « naïf »)

Le pipeline en trois temps

Le RAG classique suit un déroulé linéaire et figé : une seule requête part, on récupère des documents, on génère une réponse. Pas de boucle, pas de décision. On le découpe en trois grandes phases.

1. L'ingestion (préparation, faite avant toute question)

C'est l'étape de cuisine qu'on prépare en amont. On transforme une montagne de documents bruts en une base interrogeable.

  • Le découpage (chunking) : on coupe les documents en morceaux (chunks) de taille raisonnable — souvent quelques centaines de mots. Pourquoi ? Parce qu'on ne peut pas (et ne veut pas) donner un PDF de 300 pages entier au modèle. Le découpage est plus stratégique qu'il n'y paraît : couper au mauvais endroit casse le sens d'un passage.
  • La vectorisation (embeddings) : chaque morceau est converti en un vecteur, c'est-à-dire une longue liste de nombres qui capture son sens. Deux passages qui parlent de la même chose avec des mots différents auront des vecteurs proches. C'est ce qui permet de chercher par sens, et pas seulement par mot exact.
  • L'indexation : ces vecteurs sont stockés dans une base de données vectorielle (Pinecone, Weaviate, Qdrant, pgvector, etc.) qui sait retrouver très vite les vecteurs les plus proches d'un autre.

2. La récupération (retrieval, au moment de la question)

Quand un utilisateur pose une question :

  1. La question est elle aussi convertie en vecteur.
  2. La base vectorielle renvoie les k morceaux dont le vecteur ressemble le plus à celui de la question (le fameux « top-k », par exemple les 5 meilleurs).

C'est une recherche sémantique : on cherche par proximité de sens.

3. La génération

Les morceaux récupérés sont insérés dans le prompt envoyé au LLM, avec une consigne du type : « Réponds à la question de l'utilisateur en t'appuyant uniquement sur le contexte suivant. » Le modèle rédige alors une réponse ancrée dans les documents fournis, souvent avec des citations de sources pour la transparence.

Question ──► [vectorisation] ──► recherche top-k ──► documents
                                                         │
Question + documents ──────────────────────────────────►│──► LLM ──► Réponse

Les techniques pour améliorer un RAG classique

Le pipeline minimal ci-dessus est rarement suffisant en production. Voici les techniques les plus utilisées pour le muscler — c'est ce qu'on appelle souvent le RAG avancé.

TechniqueÀ quoi ça sertEn une phrase
Recherche hybride Améliorer le rappel On combine la recherche sémantique (vecteurs) avec la recherche par mots-clés (BM25), fusionnées par Reciprocal Rank Fusion (RRF). On attrape ainsi à la fois le sens et les termes exacts (codes, identifiants, noms propres).
Reranking Améliorer la précision On récupère beaucoup de candidats (ex. 20), puis un modèle dédié (cross-encoder, ex. BGE Reranker) les reclasse finement pour ne garder que les meilleurs (ex. 5).
Réécriture / expansion de requête Combler l'écart de vocabulaire L'utilisateur ne formule pas sa question comme la doc est rédigée. On génère 2-3 reformulations avant de chercher.
HyDE (Hypothetical Document Embeddings) Améliorer le rappel On demande au LLM d'imaginer une réponse hypothétique, puis on cherche les documents proches de cette réponse plutôt que de la question. Souvent une « réponse ressemble plus à une réponse » qu'une question.
Contextual Retrieval Réduire les échecs de récupération Technique popularisée par Anthropic : on ajoute à chaque morceau un petit résumé de son contexte global avant de le vectoriser, pour qu'il ne perde pas le fil du document entier.
Stratégies de chunking avancées Garder le contexte Sentence-window, parent-child, découpage sémantique : on récupère un petit morceau précis mais on donne au modèle le morceau parent plus large.
Filtrage par métadonnées Cibler la recherche On filtre par date, auteur, type de document, etc., avant la recherche vectorielle.

Les limites du RAG classique

Le RAG classique brille sur les questions simples et bien posées, où la réponse tient dans un ou deux passages. Mais il bute dès que ça se complique :

  • Il ne se remet jamais en question. Il transmet aveuglément au LLM ce qu'il a récupéré, même si c'est hors sujet. C'est son angle mort principal.
  • Une seule passe de récupération. Pas de seconde chance : si la première recherche rate, la réponse rate.
  • Raisonnement multi-étapes impossible. Pour une question qui demande de croiser plusieurs sources (« multi-hop »), un seul aller-retour ne suffit pas.
  • Aucune adaptation. Il applique la même recette quelle que soit la difficulté de la question.

C'est précisément pour dépasser ces limites qu'est apparu le RAG par raisonnement.

Partie 2 — Le RAG par raisonnement (Reasoning / Agentic RAG)

L'idée centrale

Plutôt qu'un tuyau figé, on embarque la capacité de décision et de raisonnement à l'intérieur même du processus de récupération. Le système ne se contente plus d'exécuter une recette : il décide quand chercher, quoi chercher, évalue ce qu'il trouve, et boucle si nécessaire.

Une façon utile de cadrer cette évolution (proposée dans un état de l'art de 2025, Liang et al.) distingue deux familles, par analogie avec la pensée humaine :

  • Le raisonnement prédéfini (« Système 1 ») : des pipelines modulaires fixes mais enrichis d'étapes de réflexion (vérification, correction). Plus structuré, plus prévisible.
  • Le raisonnement agentique (« Système 2 ») : le modèle orchestre lui-même, pendant l'inférence, l'usage des outils — il décide de manière autonome de la marche à suivre.

Les grandes approches, expliquées simplement

Self-RAG — le modèle qui se relit

Self-RAG (Asai et al., 2023) apprend au modèle à se critiquer lui-même grâce à des « jetons de réflexion » (reflection tokens). Concrètement, le modèle peut décider, en cours de génération :

  • Faut-il vraiment récupérer des documents ici ? (parfois non, c'est inutile)
  • Ce document est-il pertinent ?
  • Ma réponse est-elle bien soutenue par les sources ?

S'il juge que non, il recommence. C'est une boucle de relecture intégrée. Idéal pour les questions ouvertes et le raisonnement fin — mais attention au risque de « sur-réflexion » où le modèle se perd dans ses propres critiques.

CRAG — le RAG qui se corrige

CRAG (Corrective RAG, Yan et al., 2024) ajoute un évaluateur léger qui note la qualité des documents récupérés. Trois cas :

  • Documents bons → on génère normalement.
  • Documents médiocres → on déclenche une recherche web pour compléter ou remplacer.
  • Cas ambigu → on combine les deux.

L'idée clé : ne jamais générer une réponse à partir d'un contexte de mauvaise qualité. Self-RAG décide s'il faut récupérer ; CRAG évalue et corrige ce qui a été récupéré. En production, on les combine souvent.

ReAct et Self-Ask — penser et agir en alternance

ReAct (Yao et al., 2023) fait alterner le modèle entre raisonnement (« il me manque telle information ») et action (lancer une recherche). À chaque étape, il analyse ce qu'il vient d'obtenir et décide du coup suivant. C'est l'archétype de l'approche par prompt : pas besoin de réentraîner le modèle, on exploite sa capacité à suivre des instructions. Self-Ask suit une logique voisine en décomposant une question complexe en sous-questions.

Adaptive RAG — adapter l'effort à la difficulté

Un routeur classe la question : triviale, modérée, complexe. Une question simple part en réponse directe ; une question complexe déclenche un pipeline lourd avec plusieurs récupérations. On évite ainsi de gaspiller des ressources sur des questions faciles.

GraphRAG — pour les questions qui relient des points

Au lieu de stocker des morceaux de texte isolés, on représente les documents sous forme de graphe de connaissances : des entités (personnes, organisations, produits) et leurs relations. Au moment de la question, on parcourt le graphe pour rassembler des informations qui se trouvent à plusieurs « sauts » de distance. C'est ce qui débloque les questions multi-hop du type « Quel est le lien entre X et Y en passant par Z ? ». Exemples de référence : Microsoft GraphRAG (2024), LightRAG.

RAG multi-agents — diviser pour mieux régner

Des approches comme MA-RAG confient des rôles à plusieurs agents spécialisés : un pour décomposer la question, un pour extraire les mots-clés, un pour reclasser, un pour vérifier la cohérence... Chacun fait une tâche, et leur collaboration (raisonnement en chaîne, chain-of-thought) donne un résultat plus robuste sur les corpus denses ou très spécialisés.

Tableau comparatif

CritèreRAG classiqueRAG par raisonnement
FluxLinéaire, une seule passeItératif, avec boucles
DécisionAucune : recette fixeLe système décide quoi/quand/comment chercher
Auto-évaluationNonOui (critique, correction)
RécupérationUne foisÀ la demande, plusieurs fois si besoin
Questions multi-étapesFaibleForte
Latence & coûtFaiblesPlus élevés (plusieurs appels au LLM)
Complexité de mise en œuvreSimpleÉlevée
Cas idéalQuestions factuelles directes, FAQRecherche approfondie, raisonnement, données ambiguës

Comment choisir ?

Il n'y a pas de « meilleur » RAG dans l'absolu — il y a celui qui correspond à votre besoin.

Commencez par le RAG classique si :

  • vos questions sont majoritairement factuelles et directes (support client, FAQ, recherche documentaire) ;
  • la latence et le coût sont critiques ;
  • vous débutez : un RAG classique bien réglé (bon chunking, recherche hybride, reranking) répond déjà à une grande partie des besoins.

Passez au RAG par raisonnement si :

  • vos questions exigent de croiser plusieurs sources ou un raisonnement en plusieurs étapes ;
  • la qualité et la fiabilité priment sur la vitesse (analyse, recherche, domaines réglementés) ;
  • vous constatez que votre RAG classique « répond à côté » ou hallucine malgré vos optimisations.

Le conseil pragmatique le plus répandu : ne sautez pas les étapes. Stabilisez d'abord une base solide (embeddings de qualité, chunking sensé, métadonnées propres, un reranker), mesurez vos performances (précision@k, rappel@k, groundedness), puis ajoutez progressivement les couches de raisonnement (CRAG, multi-étapes, agents) là où elles apportent réellement un gain mesurable.

En résumé

Le RAG classique a démocratisé l'idée de donner aux LLM un accès « livre ouvert » à des connaissances externes. C'est une fondation solide, et bien optimisé, il suffit à de nombreux cas d'usage.

Le RAG par raisonnement marque un changement de paradigme : on passe d'un système qui exécute à un système qui réfléchit, évalue et s'adapte. C'est la direction de fond du domaine, portée par la montée en puissance des modèles de raisonnement et des agents — mais cette puissance se paie en complexité, en latence et en coût.

La bonne stratégie n'est pas de choisir un camp, mais de partir simple et de monter en sophistication au rythme de vos besoins réels.

Sources

Articles fondateurs et états de l'art

  • Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — l'article fondateur du RAG.
  • Asai et al. (2023), Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection — arXiv:2310.11511
  • Yan et al. (2024), Corrective Retrieval-Augmented Generation (CRAG)
  • Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models
  • Liang et al. (2025), Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic RAG for Industry Challenges — arXiv:2506.10408
  • Singh et al. (2025), Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG — arXiv:2501.09136
  • MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning — arXiv:2505.20096

Guides techniques et ressources pratiques

Article publié le 4 juin 2026. Le domaine du RAG évolue très vite : les architectures par raisonnement et agentiques font l'objet de nombreuses publications chaque mois.