Mungkin Mengumpul $9 Juta untuk Menangani Halusinasi LLM dengan Kejuruteraan Jitu

📅2 hours ago⏱3 min read

In this article

Probably Mengumpul $9 Juta untuk Menangani Halusinasi LLM dengan Kejuruteraan Jitu

Memandangkan Model Bahasa Besar (LLM) semakin disepadukan ke dalam aliran kerja profesional, industri kini menghadapi rintangan yang berterusan: kecenderungan model yang paling canggih sekalipun untuk berhalusinasi. Syarikat pemula Probably menangani cabaran ini secara langsung, dengan memperoleh $9 juta dalam pembiayaan awal yang diterajui oleh Andreessen Horowitz untuk membina pendekatan yang lebih ketat dan deterministik terhadap kebolehpercayaan AI.

Menuju ke Arah Ketepatan 99.99%

Misi utama Probably, yang diterajui oleh pengasas Peter Elias, adalah untuk merapatkan jurang antara sifat probabilistik LLM dan piawaian ketepatan 99.99% yang diharapkan daripada sistem deterministik. Dalam persekitaran berisiko tinggi, satu kesilapan fakta boleh menjadikan alat AI tidak berguna. Untuk menyelesaikan masalah ini, Probably beralih daripada idea bahawa ketepatan hanyalah fungsi saiz model dan sebaliknya memberi tumpuan kepada "kejuruteraan harness".

Produk utama syarikat ini ialah alat sains data yang direka untuk mengekstrak cerapan daripada set data yang kompleks. Tidak seperti bot sembang standard yang memberikan respons perbualan, alat Probably menyediakan setiap jawapan dengan petikan khusus dan jejak audit yang telus, membolehkan pengguna mengesahkan logik di sebalik setiap output.

Seni Bina "Data Science Mech Suit"

Daripada hanya bergantung kepada keupayaan penaakulan model yang besar, Probably menggunakan apa yang dipanggil Elias sebagai "data science mech suit". Seni bina ini berfungsi sebagai sistem harness yang rumit di mana output awal LLM akan diperiksa dengan teliti oleh pengesah deterministik.

Jika LLM menghasilkan keputusan yang tidak selaras sepenuhnya dengan set data asas, pengesah tersebut akan menolaknya. Yang paling penting, LLM dilatih secara khusus terhadap pengesah ini, mewujudkan sistem gelung tertutup yang dioptimumkan untuk kelajuan dan integriti fakta. Pendekatan ini beroperasi berdasarkan prinsip asas: dengan memperhalusi konteks dan mengurangkan kekaburan melalui kejuruteraan, anda boleh memaksa model untuk "melakukan perkara yang betul" tanpa memerlukan kuasa pengkomputeran kasar yang besar.

Kecekapan Melalui Model Tempatan yang Lebih Kecil

Salah satu implikasi teknikal yang paling ketara bagi pendekatan Probably ialah keupayaan untuk menggunakan model yang lebih kecil dan lebih cekap. Oleh kerana "mech suit" mengendalikan tugas berat pengesahan dan pemurnian konteks, sistem ini boleh beroperasi pada model yang "empat kelas lebih lemah daripada model perintis".

Peralihan ini memberikan manfaat ekonomi dan operasi yang besar:

Pengurangan Kos Token: Model yang lebih kecil mengurangkan kos setiap pertanyaan secara ketara, satu faktor penting ketika perusahaan berusaha mengoptimumkan bajet AI mereka.
Pelaksanaan Tempatan: Model yang lebih ringan ini boleh dijalankan pada perkakasan tempatan, seperti komputer desktop, berbanding memerlukan sambungan pusat data yang mahal dan mempunyai kependaman tinggi.
Kebolehskalaan: Enjin ini direka untuk boleh diperluas melangkaui sains data ke dalam sektor yang sensitif terhadap ketepatan seperti perakaunan dan perkhidmatan perubatan.

Mencabar Model Insentif Makmal AI Besar

Elias menunjukkan ketidakselarasan struktur dalam landskap AI semasa: makmal AI utama mempunyai insentif untuk membina model tujuan umum yang besar yang memerlukan pembetulan pengguna yang kerap. Memandangkan makmal-makmal ini sering mengenakan caj berdasarkan penggunaan token, lebih banyak ralat dan pertanyaan susulan sebenarnya boleh meningkatkan hasil pendapatan. Dengan memberi tumpuan kepada ketepatan dan "mengurangkan kekaburan" melalui kejuruteraan dan bukannya skala, Probably sedang membina niche untuk aplikasi AI misi-kritikal di mana kebolehpercayaan adalah satu-satunya metrik yang penting.

Rumusan Utama

Pengesahan Deterministik: Probably menggunakan seni bina "mech suit" untuk menyemak output LLM terhadap pengesah deterministik, dengan sasaran ketepatan 99.99%.
Kejuruteraan Kos-Efektif: Dengan mengurangkan kekaburan melalui kejuruteraan konteks yang lebih baik, sistem ini boleh dijalankan pada model yang jauh lebih kecil dan murah yang boleh beroperasi pada perkakasan tempatan.
Fokus Utama Ketepatan: Teknologi ini direka untuk membawa AI ke dalam industri berisiko tinggi dan sensitif terhadap ketepatan seperti perubatan dan kewangan di mana halusinasi adalah tidak boleh diterima.

Mungkin Mengumpul $9 Juta untuk Menangani Halusinasi LLM dengan Kejuruteraan Jitu

Probably Mengumpul $9 Juta untuk Menangani Halusinasi LLM dengan Kejuruteraan Jitu

Menuju ke Arah Ketepatan 99.99%

Seni Bina "Data Science Mech Suit"

Kecekapan Melalui Model Tempatan yang Lebih Kecil

Mencabar Model Insentif Makmal AI Besar

Rumusan Utama

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Red Teaming AI: Melindungi Model Bahasa Besar Daripada Risiko Adversarial

MA ProofBench: GPT 5.5 Mencapai 16% dalam Analisis Matematik

Ke Arah Pelayanan LLM yang Efisien