ડિસ્ટ્રિબ્યુશન શિફ્ટ હેઠળ એજન્ટ લીડરબોર્ડ્સ ગેરમાર્ગે દોરે છે
વર્તમાન AI એજન્ટ લીડરબોર્ડ્સ ખામીયુક્ત છે.
મોટાભાગના લીડરબોર્ડ્સ એક એજન્ટને લે છે અને તેને એક સિંગલ સ્કોરમાં ફેરવી નાખે છે. ત્યારબાદ તેઓ એજન્ટ્સને ઉચ્ચથી નીચા ક્રમમાં ગોઠવે છે. આ રિપોર્ટમાં સારું લાગે છે, પરંતુ વાસ્તવિક દુનિયામાં તે નિષ્ફળ જાય છે.
IBM ના એક નવા પેપર "Beyond Static Leaderboards" આનું કારણ સમજાવે છે.
સમસ્યા: એગ્રીગેટ સ્કોર્સ (Aggregate Scores)
ડિપ્લોયમેન્ટ માટે સિંગલ મીન સ્કોર (mean score) એ નબળો સંકેત છે. મૂલ્યાંકન એ જણાવવું જોઈએ કે કયા એજન્ટને શિપ (ship) કરવો. જો બેન્ચમાર્ક પરનો ટોપ એજન્ટ તમારા પ્રોડક્શન એન્વાયરમેન્ટમાં ટોપ એજન્ટ ન હોય, તો લીડરબોર્ડ તમને ખોટી માહિતી આપી રહ્યું છે.
IBM એ શોધી કાઢ્યું છે કે જ્યારે પરિસ્થિતિઓ બદલાય છે ત્યારે એગ્રીગેટ સ્કોર્સ પર આધારિત રેન્કિંગ બદલાઈ જાય છે. આને 'ડિસ્ટ્રિબ્યુશન શિફ્ટ' (distribution shift) કહેવામાં આવે છે.
ઉદાહરણ: પવનમાં દોડવીરો (Sprinters in the Wind)
- કલ્પના કરો કે પવન વગરના ઇન્ડોર ટ્રેક પર દોડવીરોનું રેન્કિંગ કરવામાં આવે છે.
- દોડવીર A જીતે છે. દોડવીર B બીજા ક્રમે આવે છે.
- હવે આ રેસને બહાર ભારે પવનમાં લઈ જાઓ.
- રેન્કિંગ બદલાઈ જાય છે. દોડવીર B જીતે છે. દોડવીર A ત્રીજા ક્રમે આવી જાય છે.
ઇન્ડોર ક્લોક ખોટી નહોતી. તેણે એક ચોક્કસ સેટિંગમાં ઝડપ માપી હતી. તે ફક્ત પવનમાં દોડવીરો કેવું પ્રદર્શન કરશે તેની આગાહી કરી શકતી નહોતી.
ઉકેલ: પ્રિડિક્ટિવ વેલિડિટી (Predictive Validity)
IBM માત્ર રો સ્કોર્સ (raw scores) ને બદલે પ્રિડિક્ટિવ વેલિડિટીનો ઉપયોગ કરવાનું સૂચવે છે.
પ્રિડિક્ટિવ વેલિડિટી બેન્ચમાર્ક અને વાસ્તવિક દુનિયાના પરિણામો વચ્ચેના રેન્ક કોરિલેશનને માપે છે. તે એક સરળ પ્રશ્ન પૂછે છે: જ્યારે વાતાવરણ બદલાય છે ત્યારે એજન્ટોનો ક્રમ સમાન રહે છે કે નહીં?
- ઉચ્ચ પ્રિડિક્ટિવ વેલિડિટી: લીડરબોર્ડ વાસ્તવિક દુનિયાના વિજેતાની આગાહી કરે છે.
- ઓછી પ્રિડિક્ટિવ વેલિડિટી: લીડરબોર્ડ ખોટા એજન્ટ તરફ નિર્દેશ કરે છે.
મુખ્ય ખ્યાલો (Key Concepts):
- In-sample: બેન્ચમાર્ક દ્વારા ઉપયોગમાં લેવાતા ચોક્કસ કાર્યો.
- Out-of-distribution: ડિપ્લોયમેન્ટ દરમિયાન જોવા મળતા નવા કાર્યો, નવા સાધનો અથવા અલગ ડેટા.
- Rank instability: જ્યારે કાર્યોમાં નાનો ફેરફાર આખા લીડરબોર્ડને બદલી નાખે છે.
બેન્ચમાર્કને માત્ર સ્કોરબોર્ડ તરીકે જોવાનું બંધ કરો. તેમને માપન સાધનો (measurement tools) તરીકે ગણો. જો કોઈ સાધન તમે જે પરિણામની ચિંતા કરો છો તેની આગાહી કરી શકતું નથી, તો તે પ્રોડક્શન માટે નકામું છે.
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
