Trust Isn't A Scalar: Typed Provenance for Agent Chains

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

Trust Isn't A Scalar: Typed Provenance for Agent Chains

𝗧𝗿𝘂𝘀𝘁 𝗜𝘀𝗻'𝘁 𝗔 𝗦𝗰𝗮𝗹𝗮𝗿: 𝗧𝘆𝗽𝗲𝗱 𝗣𝗿𝗼𝘃𝗲𝗻𝗮𝗻𝗰𝗲 𝗳𝗼𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗮𝗶𝗻𝘀

ഞാൻ തെറ്റായിരുന്നു.

എന്റെ കഴിഞ്ഞ പോസ്റ്റിൽ, ഒരു AI ഏജന്റിന്റെ ഔട്ട്‌പുട്ട് (output) ഗുണനിലവാരം കുറഞ്ഞോ എന്ന് പരിശോധിക്കാൻ ലളിതമായ ഒരു 'true' അല്ലെങ്കിൽ 'false' ടാഗ് ഉപയോഗിക്കാൻ ഞാൻ നിർദ്ദേശിച്ചിരുന്നു. എന്നാൽ ഇത് എന്തുകൊണ്ട് പരാജയപ്പെടുന്നു എന്ന് ഒരു കമന്റർ ചൂണ്ടിക്കാട്ടി. ഒരു ബൂലിയൻ (boolean) മാത്രം മതിയാകില്ല. വിശ്വാസം എന്നത് ഒരു ഒറ്റ സംഖ്യയല്ല.

വിശ്വാസത്തെ ഒരു സ്കോറിലേക്ക് മാത്രം ചുരുക്കിയാൽ, നിങ്ങൾ പരാജയപ്പെടും.

ഒരേ ഡാറ്റ ഉപയോഗിക്കുന്ന രണ്ട് വ്യത്യസ്ത ജോലികൾ സങ്കൽപ്പിക്കുക:

ഒരു സമ്മറൈസർക്ക് (summarizer) ശക്തമായ ഒരു മോഡൽ ആവശ്യമാണ്, എന്നാൽ പഴയ ഡാറ്റ ഉപയോഗിച്ചാലും കുഴപ്പമില്ല.
ഒരു പ്രൈസ് കാൽക്കുലേറ്ററിന് (price calculator) പുതിയ ഡാറ്റ ആവശ്യമാണ്, എന്നാൽ കുറച്ചുകൂടി ദുർബലമായ ഒരു മോഡൽ ഉപയോഗിച്ചാലും കുഴപ്പമില്ല.

ഡാറ്റ പഴയതും ഒരു ദുർബലമായ മോഡലിൽ നിന്നുള്ളതുമാണെങ്കിൽ, ഒരു ഒറ്റ വിശ്വാസ സ്കോർ (trust score) നിങ്ങളെ തെറ്റായ ഒരു തീരുമാനത്തിലേക്ക് നയിക്കും. ഒന്നുകിൽ നിങ്ങൾ എല്ലാം നിരസിക്കും, അല്ലെങ്കിൽ അപകടകരമായ പിശകുകൾക്ക് വഴിമാറിക്കൊടുക്കും.

ഇതിനുള്ള പരിഹാരം 'typed provenance' ആണ്.

ഒരു ഒറ്റ സ്കോറിന് പകരം, ഒരു ഡാറ്റാ വെക്റ്റർ (vector of data) ഉപയോഗിക്കുക. എന്താണ് തെറ്റായതെന്നും അത് എങ്ങനെ സംഭവിച്ചതെന്നും ഈ വെക്റ്റർ കൃത്യമായി രേഖപ്പെടുത്തുന്നു. നിങ്ങൾ വിവിധ അച്ചുതണ്ടുകൾ (axes) ട്രാക്ക് ചെയ്യുന്നു:

Freshness: ഡാറ്റ എത്രത്തോളം പുതിയതാണ്?
Capability: മോഡൽ എത്രത്തോളം ശക്തമാണ്?
Tool: ടൂളുകൾ ശരിയായി പ്രവർത്തിച്ചോ?
Verification: വസ്തുതകളുമായി ഒത്തുനോക്കിയോ?

അപ്പോൾ നിങ്ങളുടെ ചെയിനിലെ ഓരോ ഘട്ടവും അതിന്റേതായ നിയമങ്ങൾ പ്രയോഗിക്കുന്നു. സമ്മറൈസർ ആ വെക്റ്റർ പരിശോധിക്കുകയും "ഇത് കുഴപ്പമില്ല" എന്ന് പറയുകയും ചെയ്യുന്നു. പ്രൈസ് കാൽക്കുലേറ്റർ അതേ വെക്റ്റർ പരിശോധിക്കുകയും "ഇത് വളരെ പഴയതാണ്, പ്രവർത്തിക്കരുത്" എന്ന് പറയുകയും ചെയ്യുന്നു.

ഇത് വിശ്വാസത്തെ ഡാറ്റയുടെ ഒരു ഗുണവിശേഷമെന്ന നിലയിൽ നിന്ന്, ആ ഡാറ്റ ഉപയോഗിക്കുന്ന വ്യക്തി എടുക്കുന്ന ഒരു തീരുമാനമാക്കി മാറ്റുന്നു.

അമിത സങ്കീർണ്ണത ഒഴിവാക്കി ഇത് എങ്ങനെ നിർമ്മിക്കാം:

ഓരോ അച്ചുതണ്ടിനും (axis) ഒരു മിനിമം മൂല്യം ഉപയോഗിക്കുക. സ്കോറുകൾ ശരാശരി (average) എടുക്കരുത്. ശരാശരി എടുക്കുന്നത് പിശകുകളെ മറച്ചുവെക്കും.
നിങ്ങളുടെ റിക്കവറി ആക്ഷനെ (recovery action) മാറ്റുന്നുണ്ടെങ്കിൽ മാത്രം ഒരു പുതിയ അച്ചുതണ്ട് ചേർക്കുക.
ഫ്രഷ്നസ് (freshness) പിശക് കാരണം ഡാറ്റ വീണ്ടും ശേഖരിക്കേണ്ടി വരുന്നുണ്ടെങ്കിൽ, അത് ഒരു അച്ചുതണ്ടാണ്.
കപ്പാബിലിറ്റി (capability) പിശക് കാരണം മികച്ച ഒരു മോഡലിൽ വീണ്ടും പ്രവർത്തിപ്പിക്കേണ്ടി വരുന്നുണ്ടെങ്കിൽ, അത് ഒരു അച്ചുതണ്ടാണ്.
രണ്ട് പിശകുകൾ ഒരേ പരിഹാരത്തിലേക്കാണ് നയിക്കുന്നതെങ്കിൽ, അവയെ കൂട്ടിച്ചേർക്കുക.

ഏജന്റിന്റെ വിശ്വാസ്യത (reliability) എന്നത് ഒരു പ്രൊവനൻസ് (provenance) പ്രശ്നമാണ്. ഓരോ തീരുമാനത്തിന്റെയും ഉത്ഭവം (lineage) നിങ്ങൾ ട്രാക്ക് ചെയ്യണം.

Source: https://dev.to/p0rt/trust-isnt-a-scalar-typed-provenance-for-agent-chains-229p

Optional learning community: https://t.me/GyaanSetuAi

Trust Isn't A Scalar: Typed Provenance for Agent Chains

Continue reading

AI Agents In Practice: Reading Failures from The Trace

Your Agent Demo Works. That's The Trap.

AI ഏജന്റ് റോള்பാക്ക് പ്ലാൻ: ഉപയോക്താക്കൾക്ക് വിശ്വാസം നഷ്ടപ്പെടുന്നതിന് മുമ്പ് തെറ്റായ പ്രവൃത്തികൾ തിരുത്തുക

Building FailureDNA: An Agent Memory That Knows When Not To Trust Itself