Agent Leaderboards Mislead Under Distribution Shift

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial2 सप्ताह पहले2मिनट पढ़ें

Agent Leaderboards Mislead Under Distribution Shift

इस लेख में

एजेंट लीडरबोर्ड डिस्ट्रीब्यूशन शिफ्ट के दौरान भ्रामक हो सकते हैं

वर्तमान AI एजेंट लीडरबोर्ड दोषपूर्ण हैं।

अधिकांश लीडरबोर्ड एक एजेंट को लेते हैं और उसे एक एकल स्कोर में बदल देते हैं। फिर वे एजेंटों को उच्चतम से निम्नतम क्रम में व्यवस्थित करते हैं। यह रिपोर्ट में तो अच्छा दिखता है, लेकिन वास्तविक दुनिया में विफल हो जाता है।

IBM का एक नया शोध पत्र (paper) जिसका शीर्षक "Beyond Static Leaderboards" है, इसका कारण बताता है।

समस्या: एग्रीगेट स्कोर (Aggregate Scores)

डिप्लॉयमेंट के लिए एक एकल औसत स्कोर (mean score) एक कमजोर संकेत है। मूल्यांकन (evaluation) को आपको यह बताना चाहिए कि किस एजेंट को शिप (ship) करना है। यदि किसी बेंचमार्क पर शीर्ष एजेंट आपके प्रोडक्शन एनवायरनमेंट में शीर्ष एजेंट नहीं है, तो लीडरबोर्ड ने आपको गुमराह किया है।

IBM ने पाया कि जब स्थितियां बदलती हैं, तो एग्रीगेट स्कोर पर आधारित रैंकिंग प्रभावी नहीं रहती हैं। इसे डिस्ट्रीब्यूशन शिफ्ट (distribution shift) कहा जाता है।

उदाहरण: हवा में धावक (Sprinters)

कल्पना करें कि आप बिना हवा वाले ट्रैक पर इनडोर में धावकों की रैंकिंग कर रहे हैं।
धावक A जीतता है। धावक B दूसरे स्थान पर आता है।
अब दौड़ को बाहर तेज़ हवा में ले जाएं।
रैंकिंग बदल जाती है। धावक B जीतता है। धावक A तीसरे स्थान पर आ जाता है।

इनडोर घड़ी गलत नहीं थी। उसने एक विशिष्ट सेटिंग में गति को मापा था। वह बस यह अनुमान नहीं लगा सकी कि धावक हवा में कैसा प्रदर्शन करेंगे।

समाधान: प्रेडिक्टिव वैलिडिटी (Predictive Validity)

IBM केवल रॉ स्कोर (raw scores) के बजाय प्रेडिक्टिव वैलिडिटी का उपयोग करने का प्रस्ताव देता है।

प्रेडिक्टिव वैलिडिटी एक बेंचमार्क और वास्तविक दुनिया के परिणामों के बीच रैंक सहसंबंध (rank correlation) को मापती है। यह एक सरल प्रश्न पूछती है: क्या वातावरण बदलने पर एजेंटों का क्रम वही रहता है?

उच्च प्रेडिक्टिव वैलिडिटी: लीडरबोर्ड वास्तविक दुनिया के विजेता की भविष्यवाणी करता है।
कम प्रेडिक्टिव वैलिडिटी: लीडरबोर्ड गलत एजेंट की ओर इशारा करता है।

मुख्य अवधारणाएं:

इन-सैंपल (In-sample): वे विशिष्ट कार्य जिनका बेंचमार्क उपयोग करता है।
आउट-ऑफ-डिस्ट्रीब्यूशन (Out-of-distribution): डिप्लॉयमेंट के दौरान देखे गए नए कार्य, नए टूल, या अलग डेटा।
रैंक अस्थिरता (Rank instability): जब कार्यों में एक छोटा सा बदलाव पूरे लीडरबोर्ड को फिर से व्यवस्थित कर देता है।

बेंचमार्क को केवल स्कोरबोर्ड के रूप में देखना बंद करें। उन्हें माप उपकरण (measurement tools) के रूप में मानें। यदि कोई उपकरण उस परिणाम की भविष्यवाणी नहीं कर सकता जिसकी आपको परवाह है, तो वह प्रोडक्शन के लिए बेकार है।

स्रोत: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

Agent Leaderboards Mislead Under Distribution Shift

समस्या: एग्रीगेट स्कोर (Aggregate Scores)

उदाहरण: हवा में धावक (Sprinters)

समाधान: प्रेडिक्टिव वैलिडिटी (Predictive Validity)

मुख्य अवधारणाएं:

पढ़ना जारी रखें

LLM बेंचमार्क का झूठ

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

How to Stop AI from Mislabeling Inference as Fact

AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है