RAG classique vs RAG par raisonnement

Pourquoi le RAG existe

Un grand modèle de langage (LLM) comme GPT, Claude ou Llama est entraîné sur un énorme corpus figé à une date donnée. Cela crée trois problèmes bien connus :

Connaissances figées : le modèle ne sait rien de ce qui s'est passé après sa date d'entraînement.
Pas d'accès à vos données privées : il ne connaît ni vos documents internes, ni votre base de connaissances, ni vos PDF.
Les hallucinations : faute de source, le modèle invente parfois des réponses plausibles mais fausses.

Le RAG (Retrieval-Augmented Generation), littéralement « génération augmentée par la récupération », répond à ces trois problèmes avec une idée simple : avant de répondre, on va d'abord chercher l'information pertinente dans une source externe, puis on la donne au modèle pour qu'il s'appuie dessus.

L'analogie classique : au lieu de répondre à un examen de mémoire, le modèle passe un examen « livre ouvert ». Il a le droit de consulter ses notes avant de rédiger.

Le terme et l'architecture de base ont été formalisés en 2020 par une équipe de Facebook AI (Lewis et al.), dans un article fondateur qui combinait un retriever (récupérateur) et un modèle génératif.

Partie 1 — Le RAG classique (ou « naïf »)

Le pipeline en trois temps

Le RAG classique suit un déroulé linéaire et figé : une seule requête part, on récupère des documents, on génère une réponse. Pas de boucle, pas de décision. On le découpe en trois grandes phases.

1. L'ingestion (préparation, faite avant toute question)

C'est l'étape de cuisine qu'on prépare en amont. On transforme une montagne de documents bruts en une base interrogeable.

Le découpage (chunking) : on coupe les documents en morceaux (chunks) de taille raisonnable — souvent quelques centaines de mots. Pourquoi ? Parce qu'on ne peut pas (et ne veut pas) donner un PDF de 300 pages entier au modèle. Le découpage est plus stratégique qu'il n'y paraît : couper au mauvais endroit casse le sens d'un passage.
La vectorisation (embeddings) : chaque morceau est converti en un vecteur, c'est-à-dire une longue liste de nombres qui capture son sens. Deux passages qui parlent de la même chose avec des mots différents auront des vecteurs proches. C'est ce qui permet de chercher par sens, et pas seulement par mot exact.
L'indexation : ces vecteurs sont stockés dans une base de données vectorielle (Pinecone, Weaviate, Qdrant, pgvector, etc.) qui sait retrouver très vite les vecteurs les plus proches d'un autre.

2. La récupération (retrieval, au moment de la question)

Quand un utilisateur pose une question :

La question est elle aussi convertie en vecteur.
La base vectorielle renvoie les k morceaux dont le vecteur ressemble le plus à celui de la question (le fameux « top-k », par exemple les 5 meilleurs).

C'est une recherche sémantique : on cherche par proximité de sens.

3. La génération

Les morceaux récupérés sont insérés dans le prompt envoyé au LLM, avec une consigne du type : « Réponds à la question de l'utilisateur en t'appuyant uniquement sur le contexte suivant. » Le modèle rédige alors une réponse ancrée dans les documents fournis, souvent avec des citations de sources pour la transparence.

Question ──► [vectorisation] ──► recherche top-k ──► documents
                                                         │
Question + documents ──────────────────────────────────►│──► LLM ──► Réponse

Les techniques pour améliorer un RAG classique

Le pipeline minimal ci-dessus est rarement suffisant en production. Voici les techniques les plus utilisées pour le muscler — c'est ce qu'on appelle souvent le RAG avancé.

Technique	À quoi ça sert	En une phrase
Recherche hybride	Améliorer le rappel	On combine la recherche sémantique (vecteurs) avec la recherche par mots-clés (BM25), fusionnées par Reciprocal Rank Fusion (RRF). On attrape ainsi à la fois le sens et les termes exacts (codes, identifiants, noms propres).
Reranking	Améliorer la précision	On récupère beaucoup de candidats (ex. 20), puis un modèle dédié (cross-encoder, ex. BGE Reranker) les reclasse finement pour ne garder que les meilleurs (ex. 5).
Réécriture / expansion de requête	Combler l'écart de vocabulaire	L'utilisateur ne formule pas sa question comme la doc est rédigée. On génère 2-3 reformulations avant de chercher.
HyDE (Hypothetical Document Embeddings)	Améliorer le rappel	On demande au LLM d'imaginer une réponse hypothétique, puis on cherche les documents proches de cette réponse plutôt que de la question. Souvent une « réponse ressemble plus à une réponse » qu'une question.
Contextual Retrieval	Réduire les échecs de récupération	Technique popularisée par Anthropic : on ajoute à chaque morceau un petit résumé de son contexte global avant de le vectoriser, pour qu'il ne perde pas le fil du document entier.
Stratégies de chunking avancées	Garder le contexte	Sentence-window, parent-child, découpage sémantique : on récupère un petit morceau précis mais on donne au modèle le morceau parent plus large.
Filtrage par métadonnées	Cibler la recherche	On filtre par date, auteur, type de document, etc., avant la recherche vectorielle.

Les limites du RAG classique

Le RAG classique brille sur les questions simples et bien posées, où la réponse tient dans un ou deux passages. Mais il bute dès que ça se complique :

Il ne se remet jamais en question. Il transmet aveuglément au LLM ce qu'il a récupéré, même si c'est hors sujet. C'est son angle mort principal.
Une seule passe de récupération. Pas de seconde chance : si la première recherche rate, la réponse rate.
Raisonnement multi-étapes impossible. Pour une question qui demande de croiser plusieurs sources (« multi-hop »), un seul aller-retour ne suffit pas.
Aucune adaptation. Il applique la même recette quelle que soit la difficulté de la question.

C'est précisément pour dépasser ces limites qu'est apparu le RAG par raisonnement.

Partie 2 — Le RAG par raisonnement (Reasoning / Agentic RAG)

L'idée centrale

Plutôt qu'un tuyau figé, on embarque la capacité de décision et de raisonnement à l'intérieur même du processus de récupération. Le système ne se contente plus d'exécuter une recette : il décide quand chercher, quoi chercher, évalue ce qu'il trouve, et boucle si nécessaire.

Une façon utile de cadrer cette évolution (proposée dans un état de l'art de 2025, Liang et al.) distingue deux familles, par analogie avec la pensée humaine :

Le raisonnement prédéfini (« Système 1 ») : des pipelines modulaires fixes mais enrichis d'étapes de réflexion (vérification, correction). Plus structuré, plus prévisible.
Le raisonnement agentique (« Système 2 ») : le modèle orchestre lui-même, pendant l'inférence, l'usage des outils — il décide de manière autonome de la marche à suivre.

Les grandes approches, expliquées simplement

Self-RAG — le modèle qui se relit

Self-RAG (Asai et al., 2023) apprend au modèle à se critiquer lui-même grâce à des « jetons de réflexion » (reflection tokens). Concrètement, le modèle peut décider, en cours de génération :

Faut-il vraiment récupérer des documents ici ? (parfois non, c'est inutile)
Ce document est-il pertinent ?
Ma réponse est-elle bien soutenue par les sources ?

S'il juge que non, il recommence. C'est une boucle de relecture intégrée. Idéal pour les questions ouvertes et le raisonnement fin — mais attention au risque de « sur-réflexion » où le modèle se perd dans ses propres critiques.

CRAG — le RAG qui se corrige

CRAG (Corrective RAG, Yan et al., 2024) ajoute un évaluateur léger qui note la qualité des documents récupérés. Trois cas :

Documents bons → on génère normalement.
Documents médiocres → on déclenche une recherche web pour compléter ou remplacer.
Cas ambigu → on combine les deux.

L'idée clé : ne jamais générer une réponse à partir d'un contexte de mauvaise qualité. Self-RAG décide s'il faut récupérer ; CRAG évalue et corrige ce qui a été récupéré. En production, on les combine souvent.

ReAct et Self-Ask — penser et agir en alternance

ReAct (Yao et al., 2023) fait alterner le modèle entre raisonnement (« il me manque telle information ») et action (lancer une recherche). À chaque étape, il analyse ce qu'il vient d'obtenir et décide du coup suivant. C'est l'archétype de l'approche par prompt : pas besoin de réentraîner le modèle, on exploite sa capacité à suivre des instructions. Self-Ask suit une logique voisine en décomposant une question complexe en sous-questions.

Adaptive RAG — adapter l'effort à la difficulté

Un routeur classe la question : triviale, modérée, complexe. Une question simple part en réponse directe ; une question complexe déclenche un pipeline lourd avec plusieurs récupérations. On évite ainsi de gaspiller des ressources sur des questions faciles.

GraphRAG — pour les questions qui relient des points

Au lieu de stocker des morceaux de texte isolés, on représente les documents sous forme de graphe de connaissances : des entités (personnes, organisations, produits) et leurs relations. Au moment de la question, on parcourt le graphe pour rassembler des informations qui se trouvent à plusieurs « sauts » de distance. C'est ce qui débloque les questions multi-hop du type « Quel est le lien entre X et Y en passant par Z ? ». Exemples de référence : Microsoft GraphRAG (2024), LightRAG.

RAG multi-agents — diviser pour mieux régner

Des approches comme MA-RAG confient des rôles à plusieurs agents spécialisés : un pour décomposer la question, un pour extraire les mots-clés, un pour reclasser, un pour vérifier la cohérence... Chacun fait une tâche, et leur collaboration (raisonnement en chaîne, chain-of-thought) donne un résultat plus robuste sur les corpus denses ou très spécialisés.

Tableau comparatif

Critère	RAG classique	RAG par raisonnement
Flux	Linéaire, une seule passe	Itératif, avec boucles
Décision	Aucune : recette fixe	Le système décide quoi/quand/comment chercher
Auto-évaluation	Non	Oui (critique, correction)
Récupération	Une fois	À la demande, plusieurs fois si besoin
Questions multi-étapes	Faible	Forte
Latence & coût	Faibles	Plus élevés (plusieurs appels au LLM)
Complexité de mise en œuvre	Simple	Élevée
Cas idéal	Questions factuelles directes, FAQ	Recherche approfondie, raisonnement, données ambiguës

Comment choisir ?

Il n'y a pas de « meilleur » RAG dans l'absolu — il y a celui qui correspond à votre besoin.

Commencez par le RAG classique si :

vos questions sont majoritairement factuelles et directes (support client, FAQ, recherche documentaire) ;
la latence et le coût sont critiques ;
vous débutez : un RAG classique bien réglé (bon chunking, recherche hybride, reranking) répond déjà à une grande partie des besoins.

Passez au RAG par raisonnement si :

vos questions exigent de croiser plusieurs sources ou un raisonnement en plusieurs étapes ;
la qualité et la fiabilité priment sur la vitesse (analyse, recherche, domaines réglementés) ;
vous constatez que votre RAG classique « répond à côté » ou hallucine malgré vos optimisations.

Le conseil pragmatique le plus répandu : ne sautez pas les étapes. Stabilisez d'abord une base solide (embeddings de qualité, chunking sensé, métadonnées propres, un reranker), mesurez vos performances (précision@k, rappel@k, groundedness), puis ajoutez progressivement les couches de raisonnement (CRAG, multi-étapes, agents) là où elles apportent réellement un gain mesurable.

En résumé

Le RAG classique a démocratisé l'idée de donner aux LLM un accès « livre ouvert » à des connaissances externes. C'est une fondation solide, et bien optimisé, il suffit à de nombreux cas d'usage.

Le RAG par raisonnement marque un changement de paradigme : on passe d'un système qui exécute à un système qui réfléchit, évalue et s'adapte. C'est la direction de fond du domaine, portée par la montée en puissance des modèles de raisonnement et des agents — mais cette puissance se paie en complexité, en latence et en coût.

La bonne stratégie n'est pas de choisir un camp, mais de partir simple et de monter en sophistication au rythme de vos besoins réels.

Sources

Articles fondateurs et états de l'art

Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — l'article fondateur du RAG.
Asai et al. (2023), Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection — arXiv:2310.11511
Yan et al. (2024), Corrective Retrieval-Augmented Generation (CRAG)
Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models
Liang et al. (2025), Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic RAG for Industry Challenges — arXiv:2506.10408
Singh et al. (2025), Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG — arXiv:2501.09136
MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning — arXiv:2505.20096

Guides techniques et ressources pratiques

IBM — What is RAG?
NVIDIA Glossary — What is Retrieval-Augmented Generation?
Microsoft Azure — RAG overview
Neo4j — Advanced RAG techniques
Thoughtworks — Four retrieval techniques to improve RAG
DataCamp — tutoriels Self-RAG et CRAG
Anthropic — Contextual Retrieval

Article publié le 4 juin 2026. Le domaine du RAG évolue très vite : les architectures par raisonnement et agentiques font l'objet de nombreuses publications chaque mois.