Probably Meraih Pendanaan $9 Juta untuk Mengatasi Halusinasi LLM dengan Rekayasa Presisi
Seiring dengan semakin terintegrasinya Large Language Models (LLM) ke dalam alur kerja profesional, industri ini menghadapi hambatan yang terus-menerus: kecenderungan model yang paling canggih sekalipun untuk berhalusinasi. Startup Probably sedang menghadapi tantangan ini secara langsung, dengan mengamankan pendanaan awal (seed funding) sebesar $9 juta yang dipimpin oleh Andreessen Horowitz untuk membangun pendekatan yang lebih ketat dan deterministik terhadap keandalan AI.
Menuju Akurasi 99,99%
Misi utama Probably, yang dipimpin oleh pendiri Peter Elias, adalah untuk menjembatani kesenjangan antara sifat probabilistik LLM dan standar akurasi 99,99% yang diharapkan dari sistem deterministik. Dalam lingkungan dengan risiko tinggi, satu kesalahan faktual saja dapat membuat alat AI menjadi tidak berguna. Untuk mengatasi hal ini, Probably menjauh dari gagasan bahwa akurasi semata-mata merupakan fungsi dari ukuran model, dan sebaliknya berfokus pada "harness engineering".
Produk unggulan perusahaan ini adalah alat sains data yang dirancang untuk mengekstrak wawasan dari kumpulan data yang kompleks. Berbeda dengan chatbot standar yang memberikan respons percakapan, alat milik Probably memberikan setiap jawaban dengan sitasi spesifik dan jejak audit yang transparan, sehingga memungkinkan pengguna untuk memverifikasi logika di balik setiap output.
Arsitektur "Data Science Mech Suit"
Alih-alih hanya mengandalkan kemampuan penalaran dari model yang masif, Probably menggunakan apa yang disebut Elias sebagai "data science mech suit". Arsitektur ini berfungsi sebagai sistem pengaman (harness) yang rumit di mana output awal LLM segera diperiksa secara teliti oleh validator deterministik.
Jika LLM menghasilkan hasil yang tidak selaras secara sempurna dengan kumpulan data yang mendasarinya, validator akan menolaknya. Yang terpenting, LLM dilatih secara khusus terhadap validator ini, menciptakan sistem loop tertutup (closed-loop system) yang dioptimalkan untuk kecepatan dan integritas faktual. Pendekatan ini beroperasi pada prinsip fundamental: dengan menyempurnakan konteks dan mengurangi ambiguitas melalui rekayasa, Anda dapat memaksa model untuk "melakukan hal yang benar" tanpa memerlukan kekuatan komputasi brute force yang masif.
Efisiensi Melalui Model Lokal yang Lebih Kecil
Salah satu implikasi teknis paling signifikan dari pendekatan Probably adalah kemampuan untuk menggunakan model yang lebih kecil dan lebih efisien. Karena "mech suit" menangani tugas berat validasi dan penyempurnaan konteks, sistem dapat beroperasi pada model yang "empat kelas lebih lemah daripada model frontier".
Pergeseran ini memberikan manfaat ekonomi dan operasional yang besar:
- Pengurangan Biaya Token: Model yang lebih kecil secara signifikan menurunkan biaya per kueri, sebuah faktor vital saat perusahaan berupaya mengoptimalkan anggaran AI mereka.
- Eksekusi Lokal: Model-model yang lebih ringan ini dapat dijalankan pada perangkat keras lokal, seperti komputer desktop, alih-alih memerlukan koneksi pusat data yang mahal dan memiliki latensi tinggi.
- Skalabilitas: Mesin ini dirancang agar dapat diperluas melampaui sains data ke sektor-sektor yang sensitif terhadap presisi seperti akuntansi dan layanan medis.
Menantang Model Insentif Lab AI Besar
Elias menunjukkan adanya ketidakselarasan struktural dalam lanskap AI saat ini: lab-lab AI besar memiliki insentif untuk membangun model tujuan umum yang masif yang memerlukan koreksi pengguna secara sering. Karena lab-lab ini sering kali mengenakan biaya berdasarkan penggunaan token, lebih banyak kesalahan dan lebih banyak kueri lanjutan justru dapat meningkatkan pendapatan. Dengan berfokus pada presisi dan "mengurangi ambiguitas" melalui rekayasa alih-alih skala, Probably sedang membangun ceruk pasar untuk aplikasi AI misi-kritis di mana keandalan adalah satu-satunya metrik yang penting.
Poin-Poin Penting
- Validasi Deterministik: Probably menggunakan arsitektur "mech suit" untuk memeriksa output LLM terhadap validator deterministik, dengan target akurasi 99,99%.
- Rekayasa Hemat Biaya: Dengan mengurangi ambiguitas melalui rekayasa konteks yang lebih baik, sistem ini dapat berjalan pada model yang jauh lebih kecil dan lebih murah yang dapat beroperasi pada perangkat keras lokal.
- Fokus Utama pada Presisi: Teknologi ini dirancang untuk membawa AI ke industri berisiko tinggi dan sensitif terhadap presisi seperti medis dan keuangan, di mana halusinasi tidak dapat diterima.