Stratégies de découpage (chunking) RAG : Divisez vos documents pour une meilleure récupération

La plupart des échecs de RAG sont dus à la manière dont vous découpez vos documents.

Si votre récupération est médiocre, ne commencez pas par modifier votre prompt ou votre LLM. Examinez vos segments (chunks). Si l'information correcte se trouve dans votre base de données mais que le système ne parvient pas à la trouver, votre stratégie de découpage est probablement en cause.

Un mauvais découpage entraîne trois problèmes principaux :

• Troncation aux limites : Une phrase contenant la réponse est divisée en deux parties. Aucune des deux parties ne contient assez d'informations pour correspondre à une requête. • Dilution du contexte : Un segment volumineux contient une phrase pertinente et dix phrases inutiles. Le texte superflu affaiblit le signal sémantique. • Absence de métadonnées : Les segments manquent d'informations sur leur source ou leur date, ce qui rend la recherche filtrée impossible.

Utilisez ces quatre stratégies pour optimiser votre pipeline :

  1. Découpage par taille fixe (Fixed-size chunking) Idéal pour la prose longue et continue comme les rapports ou les articles. • Utilisez 256 à 512 tokens. • Prévoyez un chevauchement de 10 % à 15 % pour éviter de couper les phrases.

  2. Découpage sémantique (Semantic chunking) Idéal pour les textes à forte densité d'information comme les FAQ ou la documentation d'assistance. • Il découpe le texte en fonction des changements de sujet plutôt que du nombre de tokens. • Cela permet de regrouper les idées complètes.

  3. Découpage structurel (Structural chunking) Idéal pour la documentation technique, le Markdown ou le HTML. • Il découpe le texte en fonction des en-têtes (H1, H2, H3). • Cela ajoute des métadonnées vous permettant de filtrer la récupération par section.

  4. Découpage hiérarchique (Parent-Child chunking) Idéal pour les systèmes de production nécessitant à la fois précision et contexte. • Créez de petits segments enfants (64-128 tokens) pour une recherche vectorielle précise. • Liez-les à de grands segments parents (512-1024 tokens) pour la lecture par le LLM. • Cela vous offre le meilleur des deux mondes.

Comment choisir votre taille :

• 128–256 tokens : Idéal pour la recherche de faits et la documentation technique. • 256–512 tokens : Un bon point de départ pour un usage général. • 512–1024 tokens : À utiliser pour les questions analytiques de longue forme.

La règle d'or : Testez toujours votre stratégie avant la mise en production.

Constituez un ensemble de 30 à 50 requêtes réelles. Annotez les bonnes réponses. Mesurez votre recall@3. Ne changez pas votre modèle d'embedding tant que votre recall n'est pas supérieur à 80 %.

Source : https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi