Strategi Chunking RAG: Pecahkan Dokumen untuk Pencarian yang Lebih Baik

Translated for your language. Read the original.

AI-assisted draft.

Strategi Chunking RAG: Pecahkan Dokumen untuk Pencarian yang Lebih Baik

Kebanyakan kegagalan RAG berlaku disebabkan oleh cara anda memecahkan dokumen anda.

Jika pencarian (retrieval) anda lemah, jangan tukar prompt atau LLM anda terlebih dahulu. Lihat chunk anda. Jika maklumat yang betul ada dalam pangkalan data tetapi sistem tidak dapat menemuinya, kemungkinan besar strategi chunking anda adalah puncanya.

Chunking yang buruk menyebabkan tiga isu utama:

• Pemotongan sempadan (Boundary truncation): Ayat yang mengandungi jawapan terpecah kepada dua bahagian. Kedua-dua bahagian tidak mempunyai maklumat yang mencukupi untuk dipadankan dengan pertanyaan (query). • Pencairan konteks (Context dilution): Satu chunk yang besar mempunyai satu ayat yang relevan dan sepuluh ayat yang tidak berguna. Teks tambahan tersebut melemahkan isyarat semantik. • Metadata yang hilang: Chunk kekurangan maklumat tentang sumber atau tarikhnya, menjadikan carian berfilter mustahil dilakukan.

Gunakan empat strategi ini untuk membaiki pipeline anda:

Fixed-size chunking (Chunking saiz tetap) Terbaik untuk prosa panjang yang berterusan seperti laporan atau artikel. • Gunakan 256 hingga 512 token. • Tetapkan pertindihan (overlap) sebanyak 10% hingga 15% untuk mengelakkan ayat terpecah.
Semantic chunking (Chunking semantik) Terbaik untuk teks berketumpatan tinggi seperti FAQ atau dokumen sokongan. • Ia memecahkan teks berdasarkan peralihan topik dan bukannya jumlah token. • Ini mengekalkan idea yang lengkap secara bersama.
Structural chunking (Chunking struktur) Terbaik untuk dokumen teknikal, Markdown, atau HTML. • Ia memecahkan teks berdasarkan pengepala (H1, H2, H3). • Ini menambah metadata supaya anda boleh menapis pencarian mengikut bahagian.
Hierarchical (Parent-Child) chunking (Chunking hierarki) Terbaik untuk sistem produksi yang memerlukan ketepatan dan konteks. • Cipta chunk anak yang kecil (64-128 token) untuk carian vektor yang tepat. • Hubungkan ia dengan chunk induk yang besar (512-1024 token) untuk dibaca oleh LLM. • Ini memberikan anda kelebihan daripada kedua-dua kaedah tersebut.

Cara memilih saiz anda:

• 128–256 token: Bagus untuk carian fakta dan dokumen teknikal. • 256–512 token: Titik permulaan yang kukuh untuk kegunaan umum. • 512–1024 token: Gunakan untuk soalan analitikal berbentuk panjang.

Peraturan emas: Sentiasa uji strategi anda sebelum melancarkannya.

Bina satu set 30 hingga 50 pertanyaan sebenar. Tandakan (annotate) jawapan yang betul. Ukur recall@3 anda. Jangan tukar model embedding anda sehingga recall anda melebihi 80%.

Sumber: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Strategi Chunking RAG: Pecahkan Dokumen untuk Pencarian yang Lebih Baik

Strategi Chunking RAG: Pecahkan Dokumen untuk Pencarian yang Lebih Baik

Continue reading

Saya Membelanjakan $500 untuk Infrastruktur RAG Sebelum Membetulkan 7 Kesilapan Ini

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

Pelbagai Kaedah Chunking untuk RAG