RAG Chunking Strategies: Split Documents for Better Retrieval

Sebagian besar kegagalan RAG terjadi karena cara Anda membagi dokumen Anda.

Jika retrieval Anda buruk, jangan langsung mengubah prompt atau LLM Anda. Periksa chunk Anda. Jika informasi yang benar ada di database tetapi sistem tidak dapat menemukannya, kemungkinan besar strategi chunking Anda adalah masalahnya.

Chunking yang buruk menyebabkan tiga masalah utama:

• Boundary truncation: Sebuah kalimat yang berisi jawaban terbagi menjadi dua bagian. Tidak ada bagian yang memiliki informasi cukup untuk mencocokkan kueri. • Context dilution: Sebuah chunk besar memiliki satu kalimat yang relevan dan sepuluh kalimat yang tidak berguna. Teks tambahan tersebut memperlemah sinyal semantik. • Missing metadata: Chunk kekurangan informasi tentang sumber atau tanggalnya, sehingga pencarian terfilter menjadi tidak mungkin dilakukan.

Gunakan empat strategi ini untuk memperbaiki pipeline Anda:

  1. Fixed-size chunking Terbaik untuk prosa panjang yang berkelanjutan seperti laporan atau artikel. • Gunakan 256 hingga 512 token. • Atur overlap sebesar 10% hingga 15% untuk mencegah kalimat yang terpotong.

  2. Semantic chunking Terbaik untuk teks dengan kepadatan tinggi seperti FAQ atau dokumen dukungan. • Ini membagi teks berdasarkan pergeseran topik, bukan jumlah token. • Ini menjaga ide-ide yang lengkap tetap menyatu.

  3. Structural chunking Terbaik untuk dokumen teknis, Markdown, atau HTML. • Ini membagi teks berdasarkan header (H1, H2, H3). • Ini menambahkan metadata sehingga Anda dapat memfilter retrieval berdasarkan bagian.

  4. Hierarchical (Parent-Child) chunking Terbaik untuk sistem produksi yang membutuhkan presisi sekaligus konteks. • Buat child chunk yang kecil (64-128 token) untuk pencarian vektor yang presisi. • Hubungkan ke parent chunk yang besar (512-1024 token) untuk dibaca oleh LLM. • Ini memberi Anda keunggulan dari keduanya.

Cara memilih ukuran:

• 128–256 token: Bagus untuk pencarian fakta (fact-lookup) dan dokumen teknis. • 256–512 token: Titik awal yang solid untuk penggunaan umum. • 512–1024 token: Gunakan untuk pertanyaan analitis bentuk panjang.

Aturan emas: Selalu uji strategi Anda sebelum diluncurkan.

Buatlah sekumpulan 30 hingga 50 kueri nyata. Beri anotasi pada jawaban yang benar. Ukur recall@3 Anda. Jangan mengubah model embedding Anda sampai recall Anda di atas 80%.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi