𝗔𝗴𝗲𝗻𝘁 𝗟𝗲𝗮𝗱𝗲𝗿𝗯𝗼𝗮𝗿𝗱𝘀 𝗠𝗶𝘀𝗹𝗲𝗮𝗱 𝗨𝗻𝗱𝗲𝗿 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻 𝗦𝗵𝗶𝗳𝘁
डिस्ट्रिब्युशन शिफ्टमुळे (Distribution Shift) एजंट लीडरबोर्ड्स दिशाभूल करू शकतात.
सध्याचे AI एजंट लीडरबोर्ड्स दोषपूर्ण आहेत.
बहुतेक लीडरबोर्ड्स एका एजंटला घेऊन त्याचे एका सिंगल स्कोअरमध्ये रूपांतर करतात. त्यानंतर ते एजंट्सना सर्वाधिक ते सर्वात कमी अशा क्रमाने लावतात. हे रिपोर्टमध्ये चांगले दिसते, परंतु वास्तविक जगात ते अपयशी ठरते.
IBM चा 'Beyond Static Leaderboards' नावाचा एक नवीन शोधनिबंध (paper) याचे कारण स्पष्ट करतो.
समस्या: ॲग्रीगेट स्कोअर (Aggregate Scores)
डेप्लॉयमेंटसाठी (deployment) एक सिंगल मीन स्कोअर (mean score) हा कमकुवत संकेत आहे. एखाद्या इव्हॅल्युएशनमधून (evaluation) तुम्हाला कोणता एजंट वापरावा (ship करावा) हे समजले पाहिजे. जर एखाद्या बेंचमार्कवरील टॉप एजंट तुमच्या प्रोडक्शन एन्व्हायरमेंटमध्ये (production environment) टॉप एजंट नसेल, तर त्या लीडरबोर्डने तुम्हाला दिशाभूल केली आहे.
IBM ला असे आढळले की जेव्हा परिस्थिती बदलते, तेव्हा ॲग्रीगेट स्कोअरवर आधारित रँकिंग बदलतात. यालाच 'डिस्ट्रिब्युशन शिफ्ट' (distribution shift) म्हणतात.
उदाहरण: वाऱ्यातील धावपटू (Sprinters in the Wind)
- कल्पना करा की तुम्ही वाऱ्याशिवाय इनडोअर ट्रॅकवर धावपटूंचे रँकिंग करत आहात.
- धावपटू A जिंकतो. धावपटू B दुसऱ्या क्रमांकावर येतो.
- आता ही शर्यत बाहेर जोरदार वाऱ्यात आयोजित करा.
- रँकिंग बदलते. धावपटू B जिंकतो. धावपटू A तिसऱ्या क्रमांकावर येतो.
इनडोअर घड्याळ चुकीचे नव्हते. त्याने एका विशिष्ट सेटिंगमध्ये वेग मोजला होता. धावपटू वाऱ्यात कशी कामगिरी करतील, याचा अंदाज ते लावू शकले नाही.
उपाय: प्रेडिक्टिव्ह व्हॅलिडिटी (Predictive Validity)
IBM केवळ रॉ स्कोअरऐवजी (raw scores) प्रेडिक्टिव्ह व्हॅलिडिटी वापरण्याचा प्रस्ताव मांडते.
प्रेडिक्टिव्ह व्हॅलिडिटी बेंचमार्क आणि वास्तविक जगातील निकाल यांच्यातील रँक कोरिलेशन (rank correlation) मोजते. हे एक साधे प्रश्न विचारते: जेव्हा वातावरण बदलते, तेव्हा एजंट्सचा क्रम तोच राहतो का?
- उच्च प्रेडिक्टिव्ह व्हॅलिडिटी: लीडरबोर्ड वास्तविक जगातील विजेत्याचा अंदाज वर्तवतो.
- कमी प्रेडिक्टिव्ह व्हॅलिडिटी: लीडरबोर्ड चुकीच्या एजंटकडे निर्देश करतो.
महत्त्वाच्या संकल्पना (Key Concepts):
- इन-सॅम्पल (In-sample): बेंचमार्क वापरत असलेली विशिष्ट कार्ये.
- आउट-ऑफ-डिस्ट्रिब्युशन (Out-of-distribution): डेप्लॉयमेंट दरम्यान दिसलेली नवीन कार्ये, नवीन टूल्स किंवा वेगळा डेटा.
- रँक इनस्टॅबिलिटी (Rank instability): जेव्हा कार्यांमधील थोडासा बदल संपूर्ण लीडरबोर्डची रचना बदलून टाकतो.
बेंचमार्ककडे केवळ स्कोअरबोर्ड म्हणून पाहणे थांबवा. त्यांना मोजमाप साधने (measurement tools) म्हणून पहा. जर एखादे साधन तुम्हाला महत्त्वाच्या असलेल्या निकालाचा अंदाज लावू शकत नसेल, तर ते प्रोडक्शनसाठी निरुपयोगी आहे.
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
