Strategi Chunking RAG: Pecahkan Dokumen untuk Pencarian yang Lebih Baik
Kebanyakan kegagalan RAG berlaku disebabkan oleh cara anda memecahkan dokumen anda.
Jika pencarian (retrieval) anda lemah, jangan tukar prompt atau LLM anda terlebih dahulu. Lihat chunk anda. Jika maklumat yang betul ada dalam pangkalan data tetapi sistem tidak dapat menemuinya, kemungkinan besar strategi chunking anda adalah puncanya.
Chunking yang buruk menyebabkan tiga isu utama:
• Pemotongan sempadan (Boundary truncation): Ayat yang mengandungi jawapan terpecah kepada dua bahagian. Kedua-dua bahagian tidak mempunyai maklumat yang mencukupi untuk dipadankan dengan pertanyaan (query). • Pencairan konteks (Context dilution): Satu chunk yang besar mempunyai satu ayat yang relevan dan sepuluh ayat yang tidak berguna. Teks tambahan tersebut melemahkan isyarat semantik. • Metadata yang hilang: Chunk kekurangan maklumat tentang sumber atau tarikhnya, menjadikan carian berfilter mustahil dilakukan.
Gunakan empat strategi ini untuk membaiki pipeline anda:
Fixed-size chunking (Chunking saiz tetap) Terbaik untuk prosa panjang yang berterusan seperti laporan atau artikel. • Gunakan 256 hingga 512 token. • Tetapkan pertindihan (overlap) sebanyak 10% hingga 15% untuk mengelakkan ayat terpecah.
Semantic chunking (Chunking semantik) Terbaik untuk teks berketumpatan tinggi seperti FAQ atau dokumen sokongan. • Ia memecahkan teks berdasarkan peralihan topik dan bukannya jumlah token. • Ini mengekalkan idea yang lengkap secara bersama.
Structural chunking (Chunking struktur) Terbaik untuk dokumen teknikal, Markdown, atau HTML. • Ia memecahkan teks berdasarkan pengepala (H1, H2, H3). • Ini menambah metadata supaya anda boleh menapis pencarian mengikut bahagian.
Hierarchical (Parent-Child) chunking (Chunking hierarki) Terbaik untuk sistem produksi yang memerlukan ketepatan dan konteks. • Cipta chunk anak yang kecil (64-128 token) untuk carian vektor yang tepat. • Hubungkan ia dengan chunk induk yang besar (512-1024 token) untuk dibaca oleh LLM. • Ini memberikan anda kelebihan daripada kedua-dua kaedah tersebut.
Cara memilih saiz anda:
• 128–256 token: Bagus untuk carian fakta dan dokumen teknikal. • 256–512 token: Titik permulaan yang kukuh untuk kegunaan umum. • 512–1024 token: Gunakan untuk soalan analitikal berbentuk panjang.
Peraturan emas: Sentiasa uji strategi anda sebelum melancarkannya.
Bina satu set 30 hingga 50 pertanyaan sebenar. Tandakan (annotate) jawapan yang betul. Ukur recall@3 anda. Jangan tukar model embedding anda sehingga recall anda melebihi 80%.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
