Inaelekea Inapata $9M Ili Kupambana na Upotoshaji wa LLM kwa Uhandisi wa Usahihi

📅3 hours ago⏱3 min read

In this article

Probably Inapata $9M ili Kupambana na Hallucinations za LLM kwa Uhandisi wa Usahihi

Kadiri Mifumo Mikubwa ya Lugha (LLMs) inavyojumuishwa zaidi katika mifumo ya kazi za kitaalamu, sekta hii inakabiliwa na kikwazo cha kudumu: tabia ya hata mifumo ya kisasa zaidi kutoa majibu ya kufikirika (hallucinate). Kampuni changamoto (startup) ya Probably inakabiliana na changamoto hii moja kwa moja, ikipata ufadhili wa awali wa dola milioni 9 ukiongozwa na Andreessen Horowitz ili kujenga njia thabiti na inayotabirika (deterministic) ya kuleta uaminifu wa AI.

Kuelekea Usahihi wa 99.99%

Lengo kuu la Probably, linaloongozwa na mwanzilishi Peter Elias, ni kuziba pengo kati ya asili ya uwezekano (probabilistic nature) ya LLMs na kiwango cha usahihi cha 99.99% kinachotarajiwa kutoka kwa mifumo inayotabirika (deterministic systems). Katika mazingira yenye hatari kubwa, kosa moja la ukweli linaweza kufanya zana ya AI isifae kabisa. Ili kutatua hili, Probably inaacha wazo kwamba usahihi unategemea ukubwa wa mfumo pekee na badala yake inajikita katika "uhandisi wa kamba" (harness engineering).

Bidhaa kuu ya kampuni hiyo ni zana ya sayansi ya data iliyoundwa kutoa maarifa kutoka kwenye seti changamano za data. Tofauti na roboti za mazungumzo (chatbots) za kawaida zinazotoa majibu ya mazungumzo, zana ya Probably inatoa kila jibu likiwa na marejeo mahususi na mfumo wa ukaguzi unaoonekana wazi (transparent audit trail), hali inayowaruhusu watumiaji kuhakiki mantiki iliyotumika katika kila jibu.

Muundo wa "Data Science Mech Suit"

Badala ya kutegemea uwezo wa kufikiri wa mfumo mkubwa pekee, Probably inatumia kile Elias anachokiita "data science mech suit." Muundo huu hufanya kazi kama mfumo tata wa kamba (harness system) ambapo jibu la awali la LLM linakaguliwa mara moja na kihakiki kinachotabirika (deterministic validator).

Ikiwa LLM itatoa jibu ambalo halinaendani kikamilifu na seti ya data husika, kihakiki kitakikataa. Jambo la muhimu ni kwamba, LLM imefunzwa mahususi dhidi ya kihakiki hiki, na kutengeneza mfumo wa mzunguko uliofungwa (closed-loop system) uliorekebishwa kwa ajili ya kasi na uadilifu wa ukweli. Njia hii inafanya kazi kwa kanuni ya msingi: kwa kuboresha muktadha na kupunguza utata kupitia uhandisi, unaweza kuilazimisha mifumo "kufanya jambo sahihi" bila kuhitaji nguvu kubwa ya kompyuta (computational brute force).

Ufanisi Kupitia Mifumo Midogo na ya Ndani

Moja ya matokeo muhimu ya kiufundi ya njia ya Probably ni uwezo wa kutumia mifumo midogo na yenye ufanisi zaidi. Kwa sababu "mech suit" inashughulikia kazi nzito ya uhakiki na uboreshaji wa muktadha, mfumo unaweza kufanya kazi kwa kutumia mifumo ambayo ni "dhaifu kwa madaraja manne kuliko mifumo ya kisasa zaidi (frontier models)."

This shift has massive economic and operational benefits:

Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways

Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.

Inaelekea Inapata $9M Ili Kupambana na Upotoshaji wa LLM kwa Uhandisi wa Usahihi

Probably Inapata $9M ili Kupambana na Hallucinations za LLM kwa Uhandisi wa Usahihi

Kuelekea Usahihi wa 99.99%

Muundo wa "Data Science Mech Suit"

Ufanisi Kupitia Mifumo Midogo na ya Ndani

Challenging the Big AI Lab Incentive Model

Key Takeaways

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Kulinda Mifumo Mikubwa ya Lugha Dhidi ya Vihatarishi vya Mashambulizi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Kuelekea Huduma ya LLM Yenye Ufanisi