Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering

📅2 hours ago⏱3 min read

In this article

LLM ഹാലുസിനേഷനുകൾ തടയാൻ പ്രിസിഷൻ എഞ്ചിനീയറിംഗിലൂടെ Probably 9 മില്യൺ ഡോളർ സമാഹരിക്കുന്നു

ലാർജ് ലാംഗ്വേജ് മോഡലുകൾ (LLMs) പ്രൊഫഷണൽ വർക്ക്ഫ്ലോകളിൽ കൂടുതൽ ഉൾച്ചേർന്നുവരുന്നതോടെ, വ്യവസായം നേരിടുന്ന ഒരു പ്രധാന തടസ്സം അത്: ഏറ്റവും നൂതനമായ മോഡലുകൾ പോലും ഹാലുസിനേഷൻ (hallucinate) കാണിക്കാനുള്ള പ്രവണതയാണ്. AI വിശ്വാസ്യതയ്ക്കായി കൂടുതൽ കർശനവും ഡെറ്റമിനിസ്റ്റിക് ആയതുമായ ഒരു സമീപനം കെട്ടിപ്പടുക്കുന്നതിനായി, Andreessen Horowitz നയിക്കുന്ന 9 മില്യൺ ഡോളറിന്റെ സീഡ് ഫണ്ടിംഗ് സ്വന്തമാക്കി സ്റ്റാർട്ടപ്പായ Probably ഈ വെല്ലുവിളിയെ നേരിടുന്നു.

99.99% കൃത്യതയിലേക്ക് നീങ്ങുന്നു

സ്ഥാപകൻ Peter Elias നയിക്കുന്ന Probably-യുടെ പ്രധാന ലക്ഷ്യം, LLM-കളുടെ പ്രോബബിലിസ്റ്റിക് സ്വഭാവവും ഡെറ്റമിനിസ്റ്റിക് സിസ്റ്റങ്ങളിൽ നിന്ന് പ്രതീക്ഷിക്കുന്ന 99.99% കൃത്യതയും തമ്മിലുള്ള വ്യത്യാസം പരിഹരിക്കുക എന്നതാണ്. അതീവ പ്രാധാന്യമുള്ള സാഹചര്യങ്ങളിൽ, ഒരു ചെറിയ വസ്തുതാപരമായ പിശക് പോലും ഒരു AI ടൂളിനെ ഉപയോഗശൂന്യമാക്കിയേക്കാം. ഇത് പരിഹരിക്കുന്നതിനായി, കൃത്യത എന്നത് മോഡലിന്റെ വലിപ്പത്തെ മാത്രം ആശ്രയിച്ചിരിക്കുന്നു എന്ന സങ്കൽപ്പത്തിൽ നിന്ന് മാറി "harness engineering"-ൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയാണ് Probably ചെയ്യുന്നത്.

സങ്കീർണ്ണമായ ഡാറ്റാസെറ്റുകളിൽ നിന്ന് വിവരങ്ങൾ വേർതിരിച്ചെടുക്കാൻ രൂപകൽപ്പന ചെയ്ത ഒരു ഡാറ്റാ സയൻസ് ടൂളാണ് കമ്പനിയുടെ പ്രധാന ഉൽപ്പന്നം. സംഭാഷണ രൂപത്തിലുള്ള മറുപടികൾ നൽകുന്ന സാധാരണ ചാറ്റ്ബോട്ടുകളിൽ നിന്ന് വ്യത്യസ്തമായി, Probably-യുടെ ടൂൾ ഓരോ ഉത്തരത്തോടൊപ്പവും കൃത്യമായ ഉദ്ധരണികളും (citation) സുതാര്യമായ ഒരു ഓഡിറ്റ് ട്രയലും നൽകുന്നു. ഇത് ഓരോ ഔട്ട്‌പുട്ടിന് പിന്നിലെ യുക്തിയും പരിശോധിക്കാൻ ഉപയോക്താക്കളെ അനുവദിക്കുന്നു.

"Data Science Mech Suit" ആർക്കിടെക്ചർ

ഒരു വലിയ മോഡലിന്റെ യുക്തിസഹമായ ചിന്താശേഷിയെ മാത്രം ആശ്രയിക്കുന്നതിന് പകരം, Elias "data science mech suit" എന്ന് വിളിക്കുന്ന ഒരു സംവിധാനമാണ് Probably ഉപയോഗിക്കുന്നത്. ഈ ആർക്കിടെക്ചർ ഒരു സങ്കീർണ്ണമായ ഹാർനസ് സിസ്റ്റമായി പ്രവർത്തിക്കുന്നു; ഇവിടെ LLM നൽകുന്ന ആദ്യത്തെ ഔട്ട്‌പുട്ട് ഒരു ഡെറ്റമിനിസ്റ്റിക് വാലിഡേറ്റർ (deterministic validator) ഉടനടി പരിശോധിക്കുന്നു.

LLM നൽകുന്ന ഫലം അടിസ്ഥാന ഡാറ്റാസെറ്റുമായി കൃത്യമായി യോജിക്കുന്നില്ലെങ്കിൽ, വാലിഡേറ്റർ അത് നിരസിക്കുന്നു. ഇതിൽ ഏറ്റവും പ്രധാനപ്പെട്ട കാര്യം, ഈ വാലിഡേറ്ററിന് അനുസൃതമായി LLM-നെ പ്രത്യേകം പരിശീലിപ്പിക്കുന്നു എന്നതാണ്. ഇത് വേഗതയ്ക്കും വസ്തുതാപരമായ കൃത്യതയ്ക്കും അനുയോജ്യമായ ഒരു ക്ലോസ്ഡ്-ലൂപ്പ് സിസ്റ്റം സൃഷ്ടിക്കുന്നു. ഈ സമീപനം ഒരു അടിസ്ഥാന തത്വത്തിൽ പ്രവർത്തിക്കുന്നു: എഞ്ചിനീയറിംഗിലൂടെ കോൺടെക്സ്റ്റ് പരിഷ്കരിക്കുകയും അവ്യക്തത കുറയ്ക്കുകയും ചെയ്യുന്നതിലൂടെ, വലിയ കമ്പ്യൂട്ടേഷണൽ കരുത്ത് ഉപയോഗിക്കാതെ തന്നെ മോഡലിനെ "ശരിയായ കാര്യം ചെയ്യാൻ" പ്രേരിപ്പിക്കാൻ കഴിയും.

ചെറിയ, ലോക്കൽ മോഡലുകളിലൂടെയുള്ള കാര്യക്ഷമത

Probably-യുടെ സമീപനത്തിന്റെ ഏറ്റവും പ്രധാനപ്പെട്ട സാങ്കേതിക നേട്ടങ്ങളിലൊന്ന് ചെറിയതും കൂടുതൽ കാര്യക്ഷമവുമായ മോഡലുകൾ ഉപയോഗിക്കാൻ കഴിയുന്നു എന്നതാണ്. "mech suit" വാലിഡേഷനും കോൺടെക്സ്റ്റ് പരിഷ്കരണവും പോലുള്ള കഠിനമായ ജോലികൾ കൈകാര്യം ചെയ്യുന്നതിനാൽ, "ഫ്രോണ്ടിയർ മോഡലുകളേക്കാൾ നാല് പദവികൾ പിന്നിലുള്ള" (four classes weaker than frontier models) മോഡലുകളിൽ പോലും ഈ സിസ്റ്റത്തിന് പ്രവർത്തിക്കാൻ കഴിയും.

ഈ മാറ്റം വലിയ സാമ്പത്തികവും പ്രവർത്തനപരവുമായ നേട്ടങ്ങൾ നൽകുന്നു:

കുറഞ്ഞ ടോക്കൺ ചിലവ്: ചെറിയ മോഡലുകൾ ഓരോ ക്വറിയുടെയും ചിലവ് ഗണ്യമായി കുറയ്ക്കുന്നു; AI ബജറ്റുകൾ ഒപ്റ്റിമൈസ് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന സംരംഭങ്ങളെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ പ്രധാനപ്പെട്ട ഒരു ഘടകമാണ്.
ലോക്കൽ എക്സിക്യൂഷൻ: വിലകൂടിയതും ഉയർന്ന ലേറ്റൻസി (latency) ഉള്ളതുമായ ഡാറ്റാ സെന്റർ കണക്ഷനുകൾക്ക് പകരം, ഈ ഭാരം കുറഞ്ഞ മോഡലുകൾ ഡെസ്ക്ടോപ്പ് കമ്പ്യൂട്ടറുകൾ പോലുള്ള ലോക്കൽ ഹാർഡ്‌വെയറുകളിൽ പ്രവർത്തിപ്പിക്കാൻ സാധിക്കും.
സ്കെയിലബിലിറ്റി: ഡാറ്റാ സയൻസിനും അപ്പുറം അക്കൗണ്ടിംഗ്, മെഡിക്കൽ സേവനങ്ങൾ തുടങ്ങിയ കൃത്യത ആവശ്യമായ മേഖലകളിലേക്ക് വ്യാപിപ്പിക്കാൻ കഴിയുന്ന രീതിയിലാണ് ഈ എഞ്ചിൻ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്.

വൻകിട AI ലാബുകളുടെ ഇൻസെന്റീവ് മോഡലിനെ വെല്ലുവിളിക്കുന്നു

നിലവിലെ AI രംഗത്തെ ഘടനാപരമായ വൈകല്യങ്ങളെക്കുറിച്ച് ഏലിയാസ് ചൂണ്ടിക്കാണിക്കുന്നു: വലിയ പൊതു ആവശ്യങ്ങൾക്കായി ഉപയോഗിക്കാവുന്ന (general-purpose) കൂറ്റൻ മോഡലുകൾ നിർമ്മിക്കാൻ വൻകിട AI ലാബുകൾക്ക് പ്രോത്സാഹനമുണ്ട്, എന്നാൽ ഇവയ്ക്ക് ഉപയോക്താക്കളുടെ നിരന്തരമായ തിരുത്തലുകൾ ആവശ്യമായി വരാറുണ്ട്. ഈ ലാബുകൾ പലപ്പോഴും ടോക്കൺ ഉപയോഗത്തെ അടിസ്ഥാനമാക്കിയാണ് ചാർജ് ചെയ്യുന്നത് എന്നതിനാൽ, കൂടുതൽ തെറ്റുകളും തുടർചോദ്യങ്ങളും യഥാർത്ഥത്തിൽ അവരുടെ വരുമാനം വർദ്ധിപ്പിക്കുന്നു. വലുപ്പത്തിന് (scale) പകരം എഞ്ചിനീയറിംഗിലൂടെ കൃത്യതയിലും "അവ്യക്തത കുറയ്ക്കുന്നതിലും" ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നതിലൂടെ, വിശ്വാസ്യത മാത്രമാണ് പ്രധാനം എന്ന നിലയിലുള്ള നിർണ്ണായകമായ (mission-critical) AI ആപ്ലിക്കേഷനുകൾക്കായി Probably ഒരു പ്രത്യേക ഇടം കണ്ടെത്തുകയാണ്.

പ്രധാന കാര്യങ്ങൾ

ഡിറ്റർമിനിസ്റ്റിക് വാലിഡേഷൻ: 99.99% കൃത്യത ലക്ഷ്യമിട്ട്, LLM ഔട്ട്‌പുട്ടുകൾ ഒരു ഡിറ്റർമിനിസ്റ്റിക് വാലിഡറുമായി ഒത്തുനോക്കാൻ Probably ഒരു "mech suit" ആർക്കിടെക്ചർ ഉപയോഗിക്കുന്നു.
ചെലവ് കുറഞ്ഞ എഞ്ചിനീയറിംഗ്: മികച്ച കോണ്ടക്സ്റ്റ് എഞ്ചിനീയറിംഗിലൂടെ അവ്യക്തത കുറയ്ക്കുന്നതിലൂടെ, ലോക്കൽ ഹാർഡ്‌വെയറിൽ പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന വളരെ ചെറിയതും വില കുറഞ്ഞതുമായ മോഡലുകളിൽ ഈ സിസ്റ്റം പ്രവർത്തിപ്പിക്കാൻ സാധിക്കും.
കൃത്യതയ്ക്കുള്ള മുൻഗണന: മെഡിസിൻ, ഫിനാൻസ് തുടങ്ങിയ തെറ്റായ വിവരങ്ങൾ (hallucinations) അംഗീകരിക്കാൻ കഴിയാത്ത, ഉയർന്ന ഉത്തരവാദിത്തമുള്ളതും കൃത്യത ആവശ്യമായതുമായ വ്യവസായങ്ങളിലേക്ക് AI-യെ എത്തിക്കാൻ ഈ സാങ്കേതികവിദ്യ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു.

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering

LLM ഹാലുസിനേഷനുകൾ തടയാൻ പ്രിസിഷൻ എഞ്ചിനീയറിംഗിലൂടെ Probably 9 മില്യൺ ഡോളർ സമാഹരിക്കുന്നു

99.99% കൃത്യതയിലേക്ക് നീങ്ങുന്നു

"Data Science Mech Suit" ആർക്കിടെക്ചർ

ചെറിയ, ലോക്കൽ മോഡലുകളിലൂടെയുള്ള കാര്യക്ഷമത

വൻകിട AI ലാബുകളുടെ ഇൻസെന്റീവ് മോഡലിനെ വെല്ലുവിളിക്കുന്നു

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

MA ProofBench: ഗണിത വിശകലനത്തിൽ GPT 5.5 16% കൈവരിച്ചു

കാര്യക്ഷമമായ LLM സർവിംഗിലേക്ക്