𝗪𝗵𝘆 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗥𝗔𝗚 𝗕𝗿𝗲𝗮𝗸𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

Semua orang menunjukkan demo RAG yang sama kepada saya. Ia menjawab tiga pertanyaan. Terlihat rapi. Berhasil.

Saya mengujinya. Ia gagal.

Demo hanyalah sebuah trailer. Ia bukan film utuhnya. RAG di industri yang teregulasi itu berbeda. Itu sulit.

Saya menjalankan RAG di perangkat keras saya sendiri. Saya menggunakan data asli. Saya menggunakan loop evaluasi yang tidak berbohong. Inilah yang saya temukan. Demo bukanlah bagian yang sulit.

Mitosnya mengatakan jika demo berhasil, produksi sudah dekat. Ini salah. Kebanyakan orang tidak melakukan pengujian di bawah beban kerja nyata.

Saya membangun demo RAG menggunakan 40 PDF yang bersih. Berhasil dengan sempurna. Lalu saya memberinya 4.000 dokumen berantakan yang berisi tabel dan hasil pemindaian. Sistemnya hancur.

Angka-angka membuktikan hal ini. Sebuah studi MIT menemukan bahwa 95% pilot AI generatif memberikan nol imbal hasil yang terukur. Benchmark lain menunjukkan bahwa 82% inisiatif AI perusahaan tidak pernah mencapai tahap produksi. Ini bukan masalah model. Ini adalah masalah demo.

Saya menguji ini pada perangkat saya sendiri. Saya menggunakan dua RTX 3090 dan Postgres dengan pgvector. Saya menggunakan 4.000 dokumen berantakan dan 1,2 juta chunk. Saya menggunakan model embedding lokal agar data tetap berada di jaringan saya.

Inilah kenyataannya: Modelnya bukan yang pertama kali berhalusinasi. Retrieval-nya yang berbohong lebih dulu.

Skor faithfulness saya adalah 0,91. Dashboard berwarna hijau. Namun context recall saya hanya 0,58. Ini berarti kurang dari dua pertiga fakta benar-benar muncul dalam chunk yang diambil.

Jawabannya terdengar benar. Namun, jawaban tersebut didasarkan pada konteks yang salah. Sistem tetap setia pada data sampah.

Di industri yang teregulasi, menjadi benar saja tidak cukup. Anda harus membuktikan bahwa jawaban tersebut benar. Anda memerlukan audit trail. Anda perlu menunjukkan kepada regulator kalimat mana yang menghasilkan jawaban tertentu.

Teater demo tidak membangun hal tersebut.

Untuk bertahan, Anda membutuhkan empat hal:

  • Evaluation loops pada golden set. Jalankan pada setiap perubahan.
  • Guardrails dengan abstention. Jika tingkat kepercayaan rendah, sistem harus mengatakan "Saya tidak tahu."
  • Observability. Anda memerlukan tracing untuk retrieval dan generation. Anda tidak bisa memperbaiki apa yang tidak bisa Anda lihat.
  • Human-in-the-loop. Manusia harus menjadi gerbang terakhir untuk jawaban berisiko tinggi.

Model adalah 20% yang mudah. Evaluasi, guardrails, audit trail, dan peran manusia adalah 80% yang benar-benar dikirim ke produksi.

Tanpa Evaluasi, Tidak Ada Produksi.

Jangan luncurkan RAG ke dalam lingkungan yang teregulasi sampai loop evaluasi Anda berwarna hijau pada data asli. Percayalah pada retrieval, bukan pada demo.

Saran RAG apa yang gagal saat Anda mencoba meluncurkannya ke produksi? Ceritakan kegagalan Anda.

Sumber: https://dev.to/ercin/why-enterprise-rag-breaks-before-production-1866

Komunitas belajar opsional: https://t.me/GyaanSetuAi