ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് (Distribution Shift) ഉണ്ടാകുമ്പോൾ ഏജന്റ് ലീഡർബോർഡുകൾ തെറ്റിദ്ധരിപ്പിക്കുന്നു

നിലവിലെ AI ഏജന്റ് ലീഡർബോർഡുകൾ വിശ്വസനീയമല്ല.

മിക്ക ലീഡർബോർഡുകളും ഒരു ഏജന്റിനെ ഒരു ഒറ്റ സ്കോറിലേക്ക് മാറ്റുന്നു. തുടർന്ന് അവർ ഏജന്റുകളെ ഉയർന്ന സ്കോറിൽ നിന്ന് താഴ്ന്ന സ്കോറിലേക്ക് ക്രമീകരിക്കുന്നു. ഇത് ഒരു റിപ്പോർട്ടിൽ കാണാൻ നല്ലതാണെങ്കിലും, യഥാർത്ഥ ലോകത്ത് ഇത് പരാജയപ്പെടുന്നു.

'Beyond Static Leaderboards' എന്ന തലക്കെട്ടിലുള്ള IBM-ന്റെ പുതിയ പ്രബന്ധം ഇതിന്റെ കാരണം വിശദീകരിക്കുന്നു.

പ്രശ്നം: അഗ്രഗേറ്റ് സ്കോറുകൾ (Aggregate Scores)

ഒരു ശരാശരി സ്കോർ (mean score) മാത്രം ഉപയോഗിക്കുന്നത് വിന്യാസത്തിന് (deployment) അനുയോജ്യമായ ഒരു സൂചനയല്ല. ഏത് ഏജന്റാണ് ഉപയോഗിക്കേണ്ടതെന്ന് ഒരു മൂല്യനിർണ്ണയം (evaluation) നിങ്ങളോട് പറയണം. ഒരു ബെഞ്ച്മാർക്കിലെ മികച്ച ഏജന്റ് നിങ്ങളുടെ പ്രൊഡക്ഷൻ എൻവയോൺമെന്റിൽ മികച്ചതല്ലെങ്കിൽ, ആ ലീഡർബോർഡ് നിങ്ങളെ തെറ്റിദ്ധരിപ്പിച്ചു എന്നാണ് അർത്ഥം.

സാഹചര്യങ്ങൾ മാറുമ്പോൾ അഗ്രഗേറ്റ് സ്കോറുകളെ അടിസ്ഥാനമാക്കിയുള്ള റാങ്കുകൾ മാറുമെന്ന് IBM കണ്ടെത്തി. ഇതിനെയാണ് ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് (distribution shift) എന്ന് വിളിക്കുന്നത്.

ഉപമ: കാറ്റിലെ ഓട്ടക്കാർ (Sprinters in the Wind)

  • കാറ്റില്ലാത്ത ഒരു ഇൻഡോർ ട്രാക്കിൽ ഓട്ടക്കാരെ റാങ്ക് ചെയ്യുന്നത് സങ്കൽപ്പിക്കുക.
  • ഓട്ടക്കാരൻ A വിജയിക്കുന്നു. ഓട്ടക്കാരൻ B രണ്ടാം സ്ഥാനത്താണ്.
  • ഇനി ഈ മത്സരം ശക്തമായ കാറ്റുള്ള പുറത്ത് വെച്ച് നടത്തുന്നു എന്ന് കരുതുക.
  • റാങ്ക് മാറുന്നു. ഓട്ടക്കാരൻ B വിജയിക്കുന്നു. ഓട്ടക്കാരൻ A മൂന്നാം സ്ഥാനത്തേക്ക് മാറുന്നു.

ഇൻഡോർ ക്ലോക്ക് തെറ്റായിരുന്നില്ല. അത് ഒരു പ്രത്യേക സാഹചര്യത്തിലെ വേഗത മാത്രമാണ് അളന്നത്. കാറ്റുള്ള സാഹചര്യത്തിൽ ഓട്ടക്കാർ എങ്ങനെ പ്രവർത്തിക്കുമെന്ന് പ്രവചിക്കാൻ അതിന് കഴിഞ്ഞില്ല.

പരിഹാരം: പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി (Predictive Validity)

വെറും സ്കോറുകൾക്ക് പകരം പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി ഉപയോഗിക്കാൻ IBM നിർദ്ദേശിക്കുന്നു.

ഒരു ബെഞ്ച്മാർക്കും യഥാർത്ഥ ലോകത്തെ ഫലങ്ങളും തമ്മിലുള്ള റാങ്ക് കോറിലേഷൻ (rank correlation) ആണ് പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി അളക്കുന്നത്. ഇത് ലളിതമായ ഒരു ചോദ്യം ചോദിക്കുന്നു: സാഹചര്യം മാറുമ്പോൾ ഏജന്റുകളുടെ ക്രമം മാറുന്നുണ്ടോ?

  • ഉയർന്ന പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി: ലീഡർബോർഡ് യഥാർത്ഥ ലോകത്തെ വിജയിയെ പ്രവചിക്കുന്നു.
  • കുറഞ്ഞ പ്രെഡിക്റ്റീവ് വാലിഡിറ്റി: ലീഡർബോർഡ് തെറ്റായ ഏജന്റിനെ ചൂണ്ടിക്കാണിക്കുന്നു.

പ്രധാന ആശയങ്ങൾ:

  • In-sample: ബെഞ്ച്മാർക്ക് ഉപയോഗിക്കുന്ന പ്രത്യേക ടാസ്ക്കുകൾ.
  • Out-of-distribution: വിന്യാസ സമയത്ത് കാണുന്ന പുതിയ ടാസ്ക്കുകൾ, പുതിയ ടൂളുകൾ അല്ലെങ്കിൽ വ്യത്യസ്തമായ ഡാറ്റ.
  • Rank instability: ടാസ്ക്കുകളിൽ ചെറിയ മാറ്റം വരുമ്പോൾ തന്നെ മുഴുവൻ ലീഡർബോർഡും മാറുന്ന അവസ്ഥ.

ബെഞ്ച്മാർക്കുകളെ വെറും സ്കോർബോർഡുകളായി കാണുന്നത് നിർത്തുക. അവയെ അളക്കാനുള്ള ഉപകരണങ്ങളായി (measurement tools) കാണുക. നിങ്ങൾക്ക് ആവശ്യമുള്ള ഫലം പ്രവചിക്കാൻ ഒരു ഉപകരണത്തിന് കഴിയില്ലെങ്കിൽ, പ്രൊഡക്ഷന് അത് ഉപയോഗശൂന്യമാണ്.

Source: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Optional learning community: https://t.me/GyaanSetuAi