Strategi Chunking RAG: Memecah Dokumen untuk Retrieval yang Lebih Baik

Translated for your language. Read the original.

AI-assisted draft.

Strategi Chunking RAG: Memecah Dokumen untuk Retrieval yang Lebih Baik

RAG Chunking Strategies: Split Documents for Better Retrieval

Sebagian besar kegagalan RAG terjadi karena cara Anda membagi dokumen Anda.

Jika retrieval Anda buruk, jangan langsung mengubah prompt atau LLM Anda. Periksa chunk Anda. Jika informasi yang benar ada di database tetapi sistem tidak dapat menemukannya, kemungkinan besar strategi chunking Anda adalah masalahnya.

Chunking yang buruk menyebabkan tiga masalah utama:

• Boundary truncation: Sebuah kalimat yang berisi jawaban terbagi menjadi dua bagian. Tidak ada bagian yang memiliki informasi cukup untuk mencocokkan kueri. • Context dilution: Sebuah chunk besar memiliki satu kalimat yang relevan dan sepuluh kalimat yang tidak berguna. Teks tambahan tersebut memperlemah sinyal semantik. • Missing metadata: Chunk kekurangan informasi tentang sumber atau tanggalnya, sehingga pencarian terfilter menjadi tidak mungkin dilakukan.

Gunakan empat strategi ini untuk memperbaiki pipeline Anda:

Fixed-size chunking Terbaik untuk prosa panjang yang berkelanjutan seperti laporan atau artikel. • Gunakan 256 hingga 512 token. • Atur overlap sebesar 10% hingga 15% untuk mencegah kalimat yang terpotong.
Semantic chunking Terbaik untuk teks dengan kepadatan tinggi seperti FAQ atau dokumen dukungan. • Ini membagi teks berdasarkan pergeseran topik, bukan jumlah token. • Ini menjaga ide-ide yang lengkap tetap menyatu.
Structural chunking Terbaik untuk dokumen teknis, Markdown, atau HTML. • Ini membagi teks berdasarkan header (H1, H2, H3). • Ini menambahkan metadata sehingga Anda dapat memfilter retrieval berdasarkan bagian.
Hierarchical (Parent-Child) chunking Terbaik untuk sistem produksi yang membutuhkan presisi sekaligus konteks. • Buat child chunk yang kecil (64-128 token) untuk pencarian vektor yang presisi. • Hubungkan ke parent chunk yang besar (512-1024 token) untuk dibaca oleh LLM. • Ini memberi Anda keunggulan dari keduanya.

Cara memilih ukuran:

• 128–256 token: Bagus untuk pencarian fakta (fact-lookup) dan dokumen teknis. • 256–512 token: Titik awal yang solid untuk penggunaan umum. • 512–1024 token: Gunakan untuk pertanyaan analitis bentuk panjang.

Aturan emas: Selalu uji strategi Anda sebelum diluncurkan.

Buatlah sekumpulan 30 hingga 50 kueri nyata. Beri anotasi pada jawaban yang benar. Ukur recall@3 Anda. Jangan mengubah model embedding Anda sampai recall Anda di atas 80%.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi

Strategi Chunking RAG: Memecah Dokumen untuk Retrieval yang Lebih Baik

Continue reading

Saya Menghabiskan $500 untuk Infrastruktur RAG Sebelum Memperbaiki 7 Kesalahan Ini

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

Mengapa Sistem RAG Anda Berhalusinasi

Berbagai Metode Chunking untuk RAG