Berbagai Metode Chunking untuk RAG

Large Language Models memiliki batasan token. Untuk mengatasi hal ini, Anda menggunakan chunking. Chunking memecah teks panjang menjadi potongan-potongan kecil. Ini membantu model Anda memproses data tanpa kehabisan memori.

Jika Anda menggunakan Retrieval-Augmented Generation (RAG), chunking sangatlah vital. RAG memberikan sumber kebenaran (source of truth) kepada model untuk mencegah halusinasi. Anda mengubah teks menjadi angka yang disebut embeddings dan menyimpannya dalam database vektor.

Kualitas pencarian Anda bergantung pada chunk Anda. Jika chunk terlalu besar atau terlalu kecil, AI akan gagal menemukan jawaban yang tepat.

Berikut adalah lima cara untuk melakukan chunking pada data Anda:

  • Fixed-Size Chunking Metode ini memecah teks pada jumlah karakter tertentu. Metode ini cepat dan murah. Namun, metode ini tidak memperhatikan konteks. Sering kali metode ini memotong kalimat menjadi dua bagian.

  • Recursive Character Splitting Ini adalah standar industri. Metode ini menggunakan hierarki pemisah seperti baris baru (newlines) dan spasi. Metode ini mencoba menjaga kalimat-kalimat yang terkait tetap berada dalam satu blok. Gunakan ini untuk artikel umum.

  • Document-Specific Chunking Metode ini melihat struktur file Anda. Metode ini menggunakan tag dalam HTML atau header dalam Markdown untuk menemukan batasan. Hal ini menjaga kode atau bagian tertentu tetap utuh.

  • Semantic Chunking Metode ini melihat makna, bukan karakter. Metode ini mengelompokkan kalimat-kalimat yang membahas topik yang sama. Ini menciptakan chunk yang tetap fokus pada satu subjek. Metode ini memerlukan model embedding agar dapat berfungsi.

  • Agentic Chunking Seorang agen AI membaca teks untuk memutuskan di mana harus memecahnya. Agen tersebut akan bertanya apakah sebuah pemikiran sudah lengkap sebelum melanjutkan. Ini adalah metode yang paling akurat tetapi juga yang paling lambat dan paling mahal.

Perbandingan Cepat:

• Fixed-Size: Terbaik untuk prototipe. Sangat mudah. Biaya $0. • Recursive: Terbaik untuk teks umum. Mudah. Biaya $0. • Document: Terbaik untuk kode atau HTML. Tingkat kesulitan sedang. Biaya $0. • Semantic: Terbaik untuk riset mendalam. Sulit. Biaya rendah. • Agentic: Terbaik untuk presisi tinggi. Sangat sulit. Biaya tinggi.

Memilih strategi yang tepat akan mengubah hasil AI Anda. Saya akan segera membagikan detail lebih lanjut mengenai metode-metode ini.

Sumber: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g

Komunitas belajar opsional: https://t.me/GyaanSetuAi