𝗧𝗿𝘂𝘀𝘁 𝗜𝘀𝗻'𝘁 𝗔 𝗦𝗰𝗮𝗹𝗮𝗿: 𝗧𝘆𝗽𝗲𝗱 𝗣𝗿𝗼𝘃𝗲𝗻𝗮𝗻𝗰𝗲 𝗳𝗼𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗮𝗶𝗻𝘀
ഞാൻ തെറ്റായിരുന്നു.
എന്റെ കഴിഞ്ഞ പോസ്റ്റിൽ, ഒരു AI ഏജന്റിന്റെ ഔട്ട്പുട്ട് (output) ഗുണനിലവാരം കുറഞ്ഞോ എന്ന് പരിശോധിക്കാൻ ലളിതമായ ഒരു 'true' അല്ലെങ്കിൽ 'false' ടാഗ് ഉപയോഗിക്കാൻ ഞാൻ നിർദ്ദേശിച്ചിരുന്നു. എന്നാൽ ഇത് എന്തുകൊണ്ട് പരാജയപ്പെടുന്നു എന്ന് ഒരു കമന്റർ ചൂണ്ടിക്കാട്ടി. ഒരു ബൂലിയൻ (boolean) മാത്രം മതിയാകില്ല. വിശ്വാസം എന്നത് ഒരു ഒറ്റ സംഖ്യയല്ല.
വിശ്വാസത്തെ ഒരു സ്കോറിലേക്ക് മാത്രം ചുരുക്കിയാൽ, നിങ്ങൾ പരാജയപ്പെടും.
ഒരേ ഡാറ്റ ഉപയോഗിക്കുന്ന രണ്ട് വ്യത്യസ്ത ജോലികൾ സങ്കൽപ്പിക്കുക:
- ഒരു സമ്മറൈസർക്ക് (summarizer) ശക്തമായ ഒരു മോഡൽ ആവശ്യമാണ്, എന്നാൽ പഴയ ഡാറ്റ ഉപയോഗിച്ചാലും കുഴപ്പമില്ല.
- ഒരു പ്രൈസ് കാൽക്കുലേറ്ററിന് (price calculator) പുതിയ ഡാറ്റ ആവശ്യമാണ്, എന്നാൽ കുറച്ചുകൂടി ദുർബലമായ ഒരു മോഡൽ ഉപയോഗിച്ചാലും കുഴപ്പമില്ല.
ഡാറ്റ പഴയതും ഒരു ദുർബലമായ മോഡലിൽ നിന്നുള്ളതുമാണെങ്കിൽ, ഒരു ഒറ്റ വിശ്വാസ സ്കോർ (trust score) നിങ്ങളെ തെറ്റായ ഒരു തീരുമാനത്തിലേക്ക് നയിക്കും. ഒന്നുകിൽ നിങ്ങൾ എല്ലാം നിരസിക്കും, അല്ലെങ്കിൽ അപകടകരമായ പിശകുകൾക്ക് വഴിമാറിക്കൊടുക്കും.
ഇതിനുള്ള പരിഹാരം 'typed provenance' ആണ്.
ഒരു ഒറ്റ സ്കോറിന് പകരം, ഒരു ഡാറ്റാ വെക്റ്റർ (vector of data) ഉപയോഗിക്കുക. എന്താണ് തെറ്റായതെന്നും അത് എങ്ങനെ സംഭവിച്ചതെന്നും ഈ വെക്റ്റർ കൃത്യമായി രേഖപ്പെടുത്തുന്നു. നിങ്ങൾ വിവിധ അച്ചുതണ്ടുകൾ (axes) ട്രാക്ക് ചെയ്യുന്നു:
- Freshness: ഡാറ്റ എത്രത്തോളം പുതിയതാണ്?
- Capability: മോഡൽ എത്രത്തോളം ശക്തമാണ്?
- Tool: ടൂളുകൾ ശരിയായി പ്രവർത്തിച്ചോ?
- Verification: വസ്തുതകളുമായി ഒത്തുനോക്കിയോ?
അപ്പോൾ നിങ്ങളുടെ ചെയിനിലെ ഓരോ ഘട്ടവും അതിന്റേതായ നിയമങ്ങൾ പ്രയോഗിക്കുന്നു. സമ്മറൈസർ ആ വെക്റ്റർ പരിശോധിക്കുകയും "ഇത് കുഴപ്പമില്ല" എന്ന് പറയുകയും ചെയ്യുന്നു. പ്രൈസ് കാൽക്കുലേറ്റർ അതേ വെക്റ്റർ പരിശോധിക്കുകയും "ഇത് വളരെ പഴയതാണ്, പ്രവർത്തിക്കരുത്" എന്ന് പറയുകയും ചെയ്യുന്നു.
ഇത് വിശ്വാസത്തെ ഡാറ്റയുടെ ഒരു ഗുണവിശേഷമെന്ന നിലയിൽ നിന്ന്, ആ ഡാറ്റ ഉപയോഗിക്കുന്ന വ്യക്തി എടുക്കുന്ന ഒരു തീരുമാനമാക്കി മാറ്റുന്നു.
അമിത സങ്കീർണ്ണത ഒഴിവാക്കി ഇത് എങ്ങനെ നിർമ്മിക്കാം:
- ഓരോ അച്ചുതണ്ടിനും (axis) ഒരു മിനിമം മൂല്യം ഉപയോഗിക്കുക. സ്കോറുകൾ ശരാശരി (average) എടുക്കരുത്. ശരാശരി എടുക്കുന്നത് പിശകുകളെ മറച്ചുവെക്കും.
- നിങ്ങളുടെ റിക്കവറി ആക്ഷനെ (recovery action) മാറ്റുന്നുണ്ടെങ്കിൽ മാത്രം ഒരു പുതിയ അച്ചുതണ്ട് ചേർക്കുക.
- ഫ്രഷ്നസ് (freshness) പിശക് കാരണം ഡാറ്റ വീണ്ടും ശേഖരിക്കേണ്ടി വരുന്നുണ്ടെങ്കിൽ, അത് ഒരു അച്ചുതണ്ടാണ്.
- കപ്പാബിലിറ്റി (capability) പിശക് കാരണം മികച്ച ഒരു മോഡലിൽ വീണ്ടും പ്രവർത്തിപ്പിക്കേണ്ടി വരുന്നുണ്ടെങ്കിൽ, അത് ഒരു അച്ചുതണ്ടാണ്.
- രണ്ട് പിശകുകൾ ഒരേ പരിഹാരത്തിലേക്കാണ് നയിക്കുന്നതെങ്കിൽ, അവയെ കൂട്ടിച്ചേർക്കുക.
ഏജന്റിന്റെ വിശ്വാസ്യത (reliability) എന്നത് ഒരു പ്രൊവനൻസ് (provenance) പ്രശ്നമാണ്. ഓരോ തീരുമാനത്തിന്റെയും ഉത്ഭവം (lineage) നിങ്ങൾ ട്രാക്ക് ചെയ്യണം.
Source: https://dev.to/p0rt/trust-isnt-a-scalar-typed-provenance-for-agent-chains-229p
Optional learning community: https://t.me/GyaanSetuAi
