RAG-Chunking-Strategien: Dokumente aufteilen für besseres Retrieval

Die meisten RAG-Fehler entstehen durch die Art und Weise, wie Sie Ihre Dokumente aufteilen.

Wenn Ihr Retrieval schlecht ist, ändern Sie nicht zuerst Ihren Prompt oder Ihr LLM. Schauen Sie sich Ihre Chunks an. Wenn die korrekten Informationen in Ihrer Datenbank vorhanden sind, das System sie aber nicht finden kann, liegt das Problem wahrscheinlich an Ihrer Chunking-Strategie.

Schlechtes Chunking verursacht drei Hauptprobleme:

• Boundary Truncation (Abschneiden an Grenzen): Ein Satz mit der Antwort wird in zwei Teile zerlegt. Keines der Teile enthält genügend Informationen, um eine Suchanfrage zu erfüllen. • Context Dilution (Kontextverwässerung): Ein großer Chunk enthält einen relevanten Satz und zehn nutzlose. Der zusätzliche Text schwächt das semantische Signal ab. • Fehlende Metadaten: Chunks enthalten keine Informationen über ihre Quelle oder ihr Datum, was eine gefilterte Suche unmöglich macht.

Nutzen Sie diese vier Strategien, um Ihre Pipeline zu optimieren:

  1. Fixed-size Chunking Am besten geeignet für lange, fortlaufende Texte wie Berichte oder Artikel. • Nutzen Sie 256 bis 512 Token. • Legen Sie einen Überlappungsbereich (Overlap) von 10 % bis 15 % fest, um das Zerschneiden von Sätzen zu verhindern.

  2. Semantic Chunking Am besten geeignet für textdichte Inhalte wie FAQs oder Support-Dokumente. • Es teilt den Text basierend auf Themenwechseln statt auf Token-Anzahl auf. • Dadurch bleiben vollständige Gedanken zusammen.

  3. Structural Chunking Am besten geeignet für technische Dokumentationen, Markdown oder HTML. • Es teilt den Text basierend auf Überschriften (H1, H2, H3) auf. • Dies fügt Metadaten hinzu, sodass Sie das Retrieval nach Abschnitten filtern können.

  4. Hierarchical (Parent-Child) Chunking Am besten geeignet für Produktionssysteme, die sowohl Präzision als auch Kontext benötigen. • Erstellen Sie kleine Child-Chunks (64–128 Token) für eine präzise Vektorsuche. • Verknüpfen Sie diese mit großen Parent-Chunks (512–1024 Token), die das LLM dann liest. • So erhalten Sie das Beste aus beiden Welten.

So wählen Sie die richtige Größe:

• 128–256 Token: Gut für die Faktenabfrage und technische Dokumente. • 256–512 Token: Ein solider Ausgangspunkt für den allgemeinen Gebrauch. • 512–1024 Token: Nutzen Sie diese für komplexe, analytische Fragen.

Die goldene Regel: Testen Sie Ihre Strategie immer, bevor Sie sie produktiv setzen.

Erstellen Sie einen Satz von 30 bis 50 echten Anfragen. Annotieren Sie die korrekten Antworten. Messen Sie Ihren Recall@3. Ändern Sie Ihr Embedding-Modell erst, wenn Ihr Recall über 80 % liegt.

Quelle: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optionale Lern-Community: https://t.me/GyaanSetuAi