Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 અઠવાડિયા પહેલાં2min read

Agent Leaderboards Mislead Under Distribution Shift

ડિસ્ટ્રિબ્યુશન શિફ્ટ હેઠળ એજન્ટ લીડરબોર્ડ્સ ગેરમાર્ગે દોરે છે

વર્તમાન AI એજન્ટ લીડરબોર્ડ્સ ખામીયુક્ત છે.

મોટાભાગના લીડરબોર્ડ્સ એક એજન્ટને લે છે અને તેને એક સિંગલ સ્કોરમાં ફેરવી નાખે છે. ત્યારબાદ તેઓ એજન્ટ્સને ઉચ્ચથી નીચા ક્રમમાં ગોઠવે છે. આ રિપોર્ટમાં સારું લાગે છે, પરંતુ વાસ્તવિક દુનિયામાં તે નિષ્ફળ જાય છે.

IBM ના એક નવા પેપર "Beyond Static Leaderboards" આનું કારણ સમજાવે છે.

સમસ્યા: એગ્રીગેટ સ્કોર્સ (Aggregate Scores)

ડિપ્લોયમેન્ટ માટે સિંગલ મીન સ્કોર (mean score) એ નબળો સંકેત છે. મૂલ્યાંકન એ જણાવવું જોઈએ કે કયા એજન્ટને શિપ (ship) કરવો. જો બેન્ચમાર્ક પરનો ટોપ એજન્ટ તમારા પ્રોડક્શન એન્વાયરમેન્ટમાં ટોપ એજન્ટ ન હોય, તો લીડરબોર્ડ તમને ખોટી માહિતી આપી રહ્યું છે.

IBM એ શોધી કાઢ્યું છે કે જ્યારે પરિસ્થિતિઓ બદલાય છે ત્યારે એગ્રીગેટ સ્કોર્સ પર આધારિત રેન્કિંગ બદલાઈ જાય છે. આને 'ડિસ્ટ્રિબ્યુશન શિફ્ટ' (distribution shift) કહેવામાં આવે છે.

ઉદાહરણ: પવનમાં દોડવીરો (Sprinters in the Wind)

કલ્પના કરો કે પવન વગરના ઇન્ડોર ટ્રેક પર દોડવીરોનું રેન્કિંગ કરવામાં આવે છે.
દોડવીર A જીતે છે. દોડવીર B બીજા ક્રમે આવે છે.
હવે આ રેસને બહાર ભારે પવનમાં લઈ જાઓ.
રેન્કિંગ બદલાઈ જાય છે. દોડવીર B જીતે છે. દોડવીર A ત્રીજા ક્રમે આવી જાય છે.

ઇન્ડોર ક્લોક ખોટી નહોતી. તેણે એક ચોક્કસ સેટિંગમાં ઝડપ માપી હતી. તે ફક્ત પવનમાં દોડવીરો કેવું પ્રદર્શન કરશે તેની આગાહી કરી શકતી નહોતી.

ઉકેલ: પ્રિડિક્ટિવ વેલિડિટી (Predictive Validity)

IBM માત્ર રો સ્કોર્સ (raw scores) ને બદલે પ્રિડિક્ટિવ વેલિડિટીનો ઉપયોગ કરવાનું સૂચવે છે.

પ્રિડિક્ટિવ વેલિડિટી બેન્ચમાર્ક અને વાસ્તવિક દુનિયાના પરિણામો વચ્ચેના રેન્ક કોરિલેશનને માપે છે. તે એક સરળ પ્રશ્ન પૂછે છે: જ્યારે વાતાવરણ બદલાય છે ત્યારે એજન્ટોનો ક્રમ સમાન રહે છે કે નહીં?

ઉચ્ચ પ્રિડિક્ટિવ વેલિડિટી: લીડરબોર્ડ વાસ્તવિક દુનિયાના વિજેતાની આગાહી કરે છે.
ઓછી પ્રિડિક્ટિવ વેલિડિટી: લીડરબોર્ડ ખોટા એજન્ટ તરફ નિર્દેશ કરે છે.

મુખ્ય ખ્યાલો (Key Concepts):

In-sample: બેન્ચમાર્ક દ્વારા ઉપયોગમાં લેવાતા ચોક્કસ કાર્યો.
Out-of-distribution: ડિપ્લોયમેન્ટ દરમિયાન જોવા મળતા નવા કાર્યો, નવા સાધનો અથવા અલગ ડેટા.
Rank instability: જ્યારે કાર્યોમાં નાનો ફેરફાર આખા લીડરબોર્ડને બદલી નાખે છે.

બેન્ચમાર્કને માત્ર સ્કોરબોર્ડ તરીકે જોવાનું બંધ કરો. તેમને માપન સાધનો (measurement tools) તરીકે ગણો. જો કોઈ સાધન તમે જે પરિણામની ચિંતા કરો છો તેની આગાહી કરી શકતું નથી, તો તે પ્રોડક્શન માટે નકામું છે.

સ્ત્રોત: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

Agent Leaderboards Mislead Under Distribution Shift

Continue reading

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

AI અનુમાનને તથ્ય તરીકે ખોટી રીતે રજૂ ન કરે તે કેવી રીતે રોકવું

AI એજન્ટનું મૂલ્યાંકન ખૂબ વહેલું સમાપ્ત થઈ જાય છે