Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

Agent Leaderboards Mislead Under Distribution Shift

In this article

ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് (Distribution Shift) ഉണ്ടാകുമ്പോൾ ഏജന്റ് ലീഡർബോർഡുകൾ തെറ്റിദ്ധരിപ്പിക്കുന്നു

നിലവിലെ AI ഏജന്റ് ലീഡർബോർഡുകൾ വിശ്വസനീയമല്ല.

മിക്ക ലീഡർബോർഡുകളും ഒരു ഏജന്റിനെ ഒരു ഒറ്റ സ്കോറിലേക്ക് മാറ്റുന്നു. തുടർന്ന് അവർ ഏജന്റുകളെ ഉയർന്ന സ്കോറിൽ നിന്ന് താഴ്ന്ന സ്കോറിലേക്ക് ക്രമീകരിക്കുന്നു. ഇത് ഒരു റിപ്പോർട്ടിൽ കാണാൻ നല്ലതാണെങ്കിലും, യഥാർത്ഥ ലോകത്ത് ഇത് പരാജയപ്പെടുന്നു.

'Beyond Static Leaderboards' എന്ന തലക്കെട്ടിലുള്ള IBM-ന്റെ പുതിയ പ്രബന്ധം ഇതിന്റെ കാരണം വിശദീകരിക്കുന്നു.

പ്രശ്നം: അഗ്രഗേറ്റ് സ്കോറുകൾ (Aggregate Scores)

ഒരു ശരാശരി സ്കോർ (mean score) മാത്രം ഉപയോഗിക്കുന്നത് വിന്യാസത്തിന് (deployment) അനുയോജ്യമായ ഒരു സൂചനയല്ല. ഏത് ഏജന്റാണ് ഉപയോഗിക്കേണ്ടതെന്ന് ഒരു മൂല്യനിർണ്ണയം (evaluation) നിങ്ങളോട് പറയണം. ഒരു ബെഞ്ച്മാർക്കിലെ മികച്ച ഏജന്റ് നിങ്ങളുടെ പ്രൊഡക്ഷൻ എൻവയോൺമെന്റിൽ മികച്ചതല്ലെങ്കിൽ, ആ ലീഡർബോർഡ് നിങ്ങളെ തെറ്റിദ്ധരിപ്പിച്ചു എന്നാണ് അർത്ഥം.

സാഹചര്യങ്ങൾ മാറുമ്പോൾ അഗ്രഗേറ്റ് സ്കോറുകളെ അടിസ്ഥാനമാക്കിയുള്ള റാങ്കുകൾ മാറുമെന്ന് IBM കണ്ടെത്തി. ഇതിനെയാണ് ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് (distribution shift) എന്ന് വിളിക്കുന്നത്.

ഉപമ: കാറ്റിലെ ഓട്ടക്കാർ (Sprinters in the Wind)

കാറ്റില്ലാത്ത ഒരു ഇൻഡോർ ട്രാക്കിൽ ഓട്ടക്കാരെ റാങ്ക് ചെയ്യുന്നത് സങ്കൽപ്പിക്കുക.
ഓട്ടക്കാരൻ A വിജയിക്കുന്നു. ഓട്ടക്കാരൻ B രണ്ടാം സ്ഥാനത്താണ്.
ഇനി ഈ മത്സരം ശക്തമായ കാറ്റുള്ള പുറത്ത് വെച്ച് നടത്തുന്നു എന്ന് കരുതുക.
റാങ്ക് മാറുന്നു. ഓട്ടക്കാരൻ B വിജയിക്കുന്നു. ഓട്ടക്കാരൻ A മൂന്നാം സ്ഥാനത്തേക്ക് മാറുന്നു.

ഇൻഡോർ ക്ലോക്ക് തെറ്റായിരുന്നില്ല. അത് ഒരു പ്രത്യേക സാഹചര്യത്തിലെ വേഗത മാത്രമാണ് അളന്നത്. കാറ്റുള്ള സാഹചര്യത്തിൽ ഓട്ടക്കാർ എങ്ങനെ പ്രവർത്തിക്കുമെന്ന് പ്രവചിക്കാൻ അതിന് കഴിഞ്ഞില്ല.

പരിഹാരം: പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി (Predictive Validity)

വെറും സ്കോറുകൾക്ക് പകരം പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി ഉപയോഗിക്കാൻ IBM നിർദ്ദേശിക്കുന്നു.

ഒരു ബെഞ്ച്മാർക്കും യഥാർത്ഥ ലോകത്തെ ഫലങ്ങളും തമ്മിലുള്ള റാങ്ക് കോറിലേഷൻ (rank correlation) ആണ് പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി അളക്കുന്നത്. ഇത് ലളിതമായ ഒരു ചോദ്യം ചോദിക്കുന്നു: സാഹചര്യം മാറുമ്പോൾ ഏജന്റുകളുടെ ക്രമം മാറുന്നുണ്ടോ?

ഉയർന്ന പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി: ലീഡർബോർഡ് യഥാർത്ഥ ലോകത്തെ വിജയിയെ പ്രവചിക്കുന്നു.
കുറഞ്ഞ പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി: ലീഡർബോർഡ് തെറ്റായ ഏജന്റിനെ ചൂണ്ടിക്കാണിക്കുന്നു.

പ്രധാന ആശയങ്ങൾ:

In-sample: ബെഞ്ച്മാർക്ക് ഉപയോഗിക്കുന്ന പ്രത്യേക ടാസ്ക്കുകൾ.
Out-of-distribution: വിന്യാസ സമയത്ത് കാണുന്ന പുതിയ ടാസ്ക്കുകൾ, പുതിയ ടൂളുകൾ അല്ലെങ്കിൽ വ്യത്യസ്തമായ ഡാറ്റ.
Rank instability: ടാസ്ക്കുകളിൽ ചെറിയ മാറ്റം വരുമ്പോൾ തന്നെ മുഴുവൻ ലീഡർബോർഡും മാറുന്ന അവസ്ഥ.

ബെഞ്ച്മാർക്കുകളെ വെറും സ്കോർബോർഡുകളായി കാണുന്നത് നിർത്തുക. അവയെ അളക്കാനുള്ള ഉപകരണങ്ങളായി (measurement tools) കാണുക. നിങ്ങൾക്ക് ആവശ്യമുള്ള ഫലം പ്രവചിക്കാൻ ഒരു ഉപകരണത്തിന് കഴിയില്ലെങ്കിൽ, പ്രൊഡക്ഷന് അത് ഉപയോഗശൂന്യമാണ്.

Source: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Optional learning community: https://t.me/GyaanSetuAi

Agent Leaderboards Mislead Under Distribution Shift

പ്രശ്നം: അഗ്രഗേറ്റ് സ്കോറുകൾ (Aggregate Scores)

ഉപമ: കാറ്റിലെ ഓട്ടക്കാർ (Sprinters in the Wind)

പരിഹാരം: പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി (Predictive Validity)

പ്രധാന ആശയങ്ങൾ:

Continue reading

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

AI ഏജന്റുകൾ വെറുതെ ഹാക്ക് ചെയ്യുക മാത്രമല്ല ചെയ്യുന്നത്, അവ സ്വയം വഞ്ചിക്കുകയും ചെയ്യുന്നു

അനുമാനങ്ങളെ വസ്തുതകളായി തെറ്റായി അടയാളപ്പെടുത്തുന്നതിൽ നിന്ന് AI-യെ എങ്ങനെ തടയാം?

AI Agent Evaluation Ends Too Early