Probably Meraih Pendanaan $9 Juta untuk Mengatasi Halusinasi LLM dengan Rekayasa Presisi

Seiring dengan semakin terintegrasinya Large Language Models (LLM) ke dalam alur kerja profesional, industri ini menghadapi hambatan yang terus-menerus: kecenderungan model yang paling canggih sekalipun untuk berhalusinasi. Startup Probably sedang menghadapi tantangan ini secara langsung, dengan mengamankan pendanaan awal (seed funding) sebesar $9 juta yang dipimpin oleh Andreessen Horowitz untuk membangun pendekatan yang lebih ketat dan deterministik terhadap keandalan AI.

Misi utama Probably, yang dipimpin oleh pendiri Peter Elias, adalah untuk menjembatani kesenjangan antara sifat probabilistik LLM dan standar akurasi 99,99% yang diharapkan dari sistem deterministik. Dalam lingkungan dengan risiko tinggi, satu kesalahan faktual saja dapat membuat alat AI menjadi tidak berguna. Untuk mengatasi hal ini, Probably menjauh dari gagasan bahwa akurasi semata-mata merupakan fungsi dari ukuran model, dan sebaliknya berfokus pada "harness engineering".

Produk unggulan perusahaan ini adalah alat sains data yang dirancang untuk mengekstrak wawasan dari kumpulan data yang kompleks. Berbeda dengan chatbot standar yang memberikan respons percakapan, alat milik Probably memberikan setiap jawaban dengan sitasi spesifik dan jejak audit yang transparan, sehingga memungkinkan pengguna untuk memverifikasi logika di balik setiap output.

Arsitektur "Data Science Mech Suit"

Alih-alih hanya mengandalkan kemampuan penalaran dari model yang masif, Probably menggunakan apa yang disebut Elias sebagai "data science mech suit". Arsitektur ini berfungsi sebagai sistem pengaman (harness) yang rumit di mana output awal LLM segera diperiksa secara teliti oleh validator deterministik.

Jika LLM menghasilkan hasil yang tidak selaras secara sempurna dengan kumpulan data yang mendasarinya, validator akan menolaknya. Yang terpenting, LLM dilatih secara khusus terhadap validator ini, menciptakan sistem loop tertutup (closed-loop system) yang dioptimalkan untuk kecepatan dan integritas faktual. Pendekatan ini beroperasi pada prinsip fundamental: dengan menyempurnakan konteks dan mengurangi ambiguitas melalui rekayasa, Anda dapat memaksa model untuk "melakukan hal yang benar" tanpa memerlukan kekuatan komputasi brute force yang masif.

Efisiensi Melalui Model Lokal yang Lebih Kecil

Salah satu implikasi teknis paling signifikan dari pendekatan Probably adalah kemampuan untuk menggunakan model yang lebih kecil dan lebih efisien. Karena "mech suit" menangani tugas berat validasi dan penyempurnaan konteks, sistem dapat beroperasi pada model yang "empat kelas lebih lemah daripada model frontier".

Pergeseran ini memberikan manfaat ekonomi dan operasional yang besar:

Menantang Model Insentif Lab AI Besar

Elias menunjukkan adanya ketidakselarasan struktural dalam lanskap AI saat ini: lab-lab AI besar memiliki insentif untuk membangun model tujuan umum yang masif yang memerlukan koreksi pengguna secara sering. Karena lab-lab ini sering kali mengenakan biaya berdasarkan penggunaan token, lebih banyak kesalahan dan lebih banyak kueri lanjutan justru dapat meningkatkan pendapatan. Dengan berfokus pada presisi dan "mengurangi ambiguitas" melalui rekayasa alih-alih skala, Probably sedang membangun ceruk pasar untuk aplikasi AI misi-kritis di mana keandalan adalah satu-satunya metrik yang penting.

Poin-Poin Penting