Probably Inapata $9M ili Kupambana na Hallucinations za LLM kwa Uhandisi wa Usahihi

Kadiri Mifumo Mikubwa ya Lugha (LLMs) inavyojumuishwa zaidi katika mifumo ya kazi za kitaalamu, sekta hii inakabiliwa na kikwazo cha kudumu: tabia ya hata mifumo ya kisasa zaidi kutoa majibu ya kufikirika (hallucinate). Kampuni changamoto (startup) ya Probably inakabiliana na changamoto hii moja kwa moja, ikipata ufadhili wa awali wa dola milioni 9 ukiongozwa na Andreessen Horowitz ili kujenga njia thabiti na inayotabirika (deterministic) ya kuleta uaminifu wa AI.

Kuelekea Usahihi wa 99.99%

Lengo kuu la Probably, linaloongozwa na mwanzilishi Peter Elias, ni kuziba pengo kati ya asili ya uwezekano (probabilistic nature) ya LLMs na kiwango cha usahihi cha 99.99% kinachotarajiwa kutoka kwa mifumo inayotabirika (deterministic systems). Katika mazingira yenye hatari kubwa, kosa moja la ukweli linaweza kufanya zana ya AI isifae kabisa. Ili kutatua hili, Probably inaacha wazo kwamba usahihi unategemea ukubwa wa mfumo pekee na badala yake inajikita katika "uhandisi wa kamba" (harness engineering).

Bidhaa kuu ya kampuni hiyo ni zana ya sayansi ya data iliyoundwa kutoa maarifa kutoka kwenye seti changamano za data. Tofauti na roboti za mazungumzo (chatbots) za kawaida zinazotoa majibu ya mazungumzo, zana ya Probably inatoa kila jibu likiwa na marejeo mahususi na mfumo wa ukaguzi unaoonekana wazi (transparent audit trail), hali inayowaruhusu watumiaji kuhakiki mantiki iliyotumika katika kila jibu.

Muundo wa "Data Science Mech Suit"

Badala ya kutegemea uwezo wa kufikiri wa mfumo mkubwa pekee, Probably inatumia kile Elias anachokiita "data science mech suit." Muundo huu hufanya kazi kama mfumo tata wa kamba (harness system) ambapo jibu la awali la LLM linakaguliwa mara moja na kihakiki kinachotabirika (deterministic validator).

Ikiwa LLM itatoa jibu ambalo halinaendani kikamilifu na seti ya data husika, kihakiki kitakikataa. Jambo la muhimu ni kwamba, LLM imefunzwa mahususi dhidi ya kihakiki hiki, na kutengeneza mfumo wa mzunguko uliofungwa (closed-loop system) uliorekebishwa kwa ajili ya kasi na uadilifu wa ukweli. Njia hii inafanya kazi kwa kanuni ya msingi: kwa kuboresha muktadha na kupunguza utata kupitia uhandisi, unaweza kuilazimisha mifumo "kufanya jambo sahihi" bila kuhitaji nguvu kubwa ya kompyuta (computational brute force).

Ufanisi Kupitia Mifumo Midogo na ya Ndani

Moja ya matokeo muhimu ya kiufundi ya njia ya Probably ni uwezo wa kutumia mifumo midogo na yenye ufanisi zaidi. Kwa sababu "mech suit" inashughulikia kazi nzito ya uhakiki na uboreshaji wa muktadha, mfumo unaweza kufanya kazi kwa kutumia mifumo ambayo ni "dhaifu kwa madaraja manne kuliko mifumo ya kisasa zaidi (frontier models)."

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways