𝗣𝗵𝗮𝘀𝗲 𝟭: 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

Kebanyakan sistem RAG gagal sebelum ia bermula.

Anda fikir membina sistem RAG itu mudah. Pengguna memuat naik PDF, anda mencipta embedding, dan anda mendapat jawapan.

Itu adalah satu kesilapan.

Antara butang muat naik dan pangkalan data vektor, terdapat 15 langkah kritikal. Jika anda melangkau satu langkah, sistem anda akan memberikan jawapan yang salah atau membazirkan wang anda.

Berikut adalah pelan hala tuju gred produksi untuk ingesti dokumen:

• Hashing Fail: Jangan sesekali melakukan hashing pada nama fail. Lakukan hashing pada kandungan fail yang sebenar. Ini menghalang sistem anda daripada memproses fail yang sama dua kali jika seseorang menukar namanya.

• Parsing Pintar: Gunakan alat yang betul untuk tugas tersebut.

  • Teks ringkas: pdf-parse (Percuma)
  • Kandungan bercampur: Unstructured (Seimbang)
  • Jadual/susun atur kompleks: LlamaParse (Kualiti tinggi)
  • Borang perusahaan: Azure Document Intelligence (Terbaik untuk imbasan)

• Pembersihan Teks: Buang segala sampah (junk). Header, footer, tanda air (watermark), dan nombor halaman mencipta gangguan (noise). Jika anda memasukkan "Confidential" pada setiap halaman, AI anda akan menganggap setiap jawapan adalah rahsia.

• Pengekstrakan Metadata: Tambah konteks seperti jabatan, bahagian, atau versi. Ini membantu sistem anda mencari dokumen yang betul tanpa perlu mencari segalanya.

• Chunking Pintar: Ini adalah bahagian yang paling penting.

  • Saiz: Sasarkan 1000 hingga 1500 token.
  • Pertindihan (Overlap): Gunakan 200 token pertindihan untuk mengekalkan konteks.
  • Sempadan: Jangan sesekali memotong ayat di tengah-tengah.

• Hashing Chunk dan Penduaan (Deduplication): Lakukan hashing pada setiap chunk. Apabila fail berubah, bandingkan hash baharu dengan hash lama.

• Ingesti Inkremental: Jangan buat embedding semula untuk segalanya. Jika dokumen 1000 halaman hanya berubah satu halaman, hanya buat embedding pada satu chunk baharu tersebut. Ini menjimatkan wang anda dalam jumlah yang besar bagi kos API.

Perbezaan antara projek hobi dan sistem produksi adalah kerja yang anda lakukan sebelum langkah embedding.

Sistem yang naif melakukan embedding semula untuk segalanya setiap kali. Sistem yang pintar hanya memproses apa yang telah berubah.

Berhenti membina "sup". Bina satu asas.

Sumber: https://dev.to/surajrkhonde/phase-1-document-ingestion-the-hidden-complexity-before-embeddings-4d32

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi