एजेंट लीडरबोर्ड डिस्ट्रीब्यूशन शिफ्ट के दौरान भ्रामक हो सकते हैं
वर्तमान AI एजेंट लीडरबोर्ड दोषपूर्ण हैं।
अधिकांश लीडरबोर्ड एक एजेंट को लेते हैं और उसे एक एकल स्कोर में बदल देते हैं। फिर वे एजेंटों को उच्चतम से निम्नतम क्रम में व्यवस्थित करते हैं। यह रिपोर्ट में तो अच्छा दिखता है, लेकिन वास्तविक दुनिया में विफल हो जाता है।
IBM का एक नया शोध पत्र (paper) जिसका शीर्षक "Beyond Static Leaderboards" है, इसका कारण बताता है।
समस्या: एग्रीगेट स्कोर (Aggregate Scores)
डिप्लॉयमेंट के लिए एक एकल औसत स्कोर (mean score) एक कमजोर संकेत है। मूल्यांकन (evaluation) को आपको यह बताना चाहिए कि किस एजेंट को शिप (ship) करना है। यदि किसी बेंचमार्क पर शीर्ष एजेंट आपके प्रोडक्शन एनवायरनमेंट में शीर्ष एजेंट नहीं है, तो लीडरबोर्ड ने आपको गुमराह किया है।
IBM ने पाया कि जब स्थितियां बदलती हैं, तो एग्रीगेट स्कोर पर आधारित रैंकिंग प्रभावी नहीं रहती हैं। इसे डिस्ट्रीब्यूशन शिफ्ट (distribution shift) कहा जाता है।
उदाहरण: हवा में धावक (Sprinters)
- कल्पना करें कि आप बिना हवा वाले ट्रैक पर इनडोर में धावकों की रैंकिंग कर रहे हैं।
- धावक A जीतता है। धावक B दूसरे स्थान पर आता है।
- अब दौड़ को बाहर तेज़ हवा में ले जाएं।
- रैंकिंग बदल जाती है। धावक B जीतता है। धावक A तीसरे स्थान पर आ जाता है।
इनडोर घड़ी गलत नहीं थी। उसने एक विशिष्ट सेटिंग में गति को मापा था। वह बस यह अनुमान नहीं लगा सकी कि धावक हवा में कैसा प्रदर्शन करेंगे।
समाधान: प्रेडिक्टिव वैलिडिटी (Predictive Validity)
IBM केवल रॉ स्कोर (raw scores) के बजाय प्रेडिक्टिव वैलिडिटी का उपयोग करने का प्रस्ताव देता है।
प्रेडिक्टिव वैलिडिटी एक बेंचमार्क और वास्तविक दुनिया के परिणामों के बीच रैंक सहसंबंध (rank correlation) को मापती है। यह एक सरल प्रश्न पूछती है: क्या वातावरण बदलने पर एजेंटों का क्रम वही रहता है?
- उच्च प्रेडिक्टिव वैलिडिटी: लीडरबोर्ड वास्तविक दुनिया के विजेता की भविष्यवाणी करता है।
- कम प्रेडिक्टिव वैलिडिटी: लीडरबोर्ड गलत एजेंट की ओर इशारा करता है।
मुख्य अवधारणाएं:
- इन-सैंपल (In-sample): वे विशिष्ट कार्य जिनका बेंचमार्क उपयोग करता है।
- आउट-ऑफ-डिस्ट्रीब्यूशन (Out-of-distribution): डिप्लॉयमेंट के दौरान देखे गए नए कार्य, नए टूल, या अलग डेटा।
- रैंक अस्थिरता (Rank instability): जब कार्यों में एक छोटा सा बदलाव पूरे लीडरबोर्ड को फिर से व्यवस्थित कर देता है।
बेंचमार्क को केवल स्कोरबोर्ड के रूप में देखना बंद करें। उन्हें माप उपकरण (measurement tools) के रूप में मानें। यदि कोई उपकरण उस परिणाम की भविष्यवाणी नहीं कर सकता जिसकी आपको परवाह है, तो वह प्रोडक्शन के लिए बेकार है।
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
