𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴
संशोधक आता AI प्रशिक्षणासाठी साध्या स्कोअरपासून (गुणांक) दूर जात आहेत. ते आता अधिक समृद्ध सिग्नलचा (संकेतांचा) वापर करत आहेत.
'Rethinking Reward Supervision' नावाचा एक नवीन शोधनिबंध (paper) हा बदल का महत्त्वाचा आहे हे दर्शवतो. बहुतेक प्रशिक्षण पद्धती डेटाला एका सिंगल नंबरमध्ये (एका अंकात) संकुचित करतात. एक सिंगल स्कोअर तुम्हाला उत्तर चांगले आहे की वाईट हे सांगतो, पण ते का आहे हे सांगत नाही.
सध्याच्या पद्धतींच्या काही मर्यादा आहेत:
- सुपरवाइज्ड डिस्टिलेशन (Supervised distillation) हे 'chain-of-thought' उदाहरणांवर अवलंबून असते. ही उदाहरणे खर्चिक असतात आणि अनेकदा अपूर्ण असतात. जर मॉडेलने चुकीचे स्पष्टीकरण कॉपी केले, तर ते चुकीची गोष्ट शिकते.
- रिइन्फोर्समेंट लर्निंग (Reinforcement learning) रिवॉर्ड्सचा वापर करते. रिवॉर्ड एक सिंगल नंबर देतो. यामुळे 'क्रेडिट असाइनमेंट' (credit assignment) करणे कठीण होते. मॉडेलला निकाल माहित असतो, पण नेमकी कोणती पायरी चुकली हे त्याला समजत नाही.
रुब्रिक्स (Rubrics) ही समस्या सोडवतात. ते एक साधा स्कोअर आणि पूर्ण स्पष्टीकरण यांच्या दरम्यान काम करतात.
ही प्रक्रिया दोन टप्प्यांत काम करते:
- सिस्टम कामासाठी विशिष्ट (task-specific) रुब्रिक्स तयार करते. विज्ञानाच्या बाबतीत, याचा अर्थ युनिट्स किंवा गृहितके (assumptions) तपासणे असा होतो.
- टीचर मॉडेल विद्यार्थ्याला (student model) मार्गदर्शन करण्यासाठी या रुब्रिक्सचा वापर करते. यामुळे 'टोकन-लेव्हल' (token-level) मार्गदर्शन मिळते. रुब्रिक मॉडेलला नेमके सांगते की त्याचे स्पष्टीकरण कुठे कमकुवत आहे.
या दृष्टिकोनाचे तीन फायदे आहेत:
- उत्तम क्रेडिट असाइनमेंट. मॉडेल संपूर्ण प्रयत्न बाद करण्याऐवजी विशिष्ट चुकांमधून शिकते.
- पुन्हा वापरण्यायोग्य सुपरव्हिजन. एकच रुब्रिक अनेक वेगवेगळ्या उत्तरांना मार्गदर्शन करू शकते.
- उत्तम स्केलिंग. रुब्रिक्स अनेक पायऱ्या असलेल्या जटिल कामांना 'पास' किंवा 'फेल' यांसारख्या साध्या लेबलपेक्षा अधिक चांगल्या प्रकारे हाताळू शकतात.
हा शोधनिबंध दर्शवतो की विज्ञानातील तर्कशुद्धता (science reasoning) करण्याच्या कामांमध्ये ही पद्धत GRPO आणि OPSD सारख्या सध्याच्या मॉडेल्सपेक्षा सरस ठरते.
धडा स्पष्ट आहे. जर एखाद्या कामाची रचना (structure) असेल, तर ती तुमच्या ट्रेनिंग लूपमध्ये कायम ठेवा. तुमचा डेटा खूप लवकर एका सिंगल नंबरमध्ये रूपांतरित करू नका.
तुम्ही रुब्रिक्स, अनसर्टेन्टी-बेस्ड प्लॅनिंग (uncertainty-based planning) किंवा प्रोग्रामॅटिक स्पष्टीकरणे वापरा, उद्दिष्ट एकच आहे: लपलेले वर्तन स्पष्ट सिग्नलमध्ये रूपांतरित करणे.
जर तुम्ही रिझनिंग सिस्टम्स (reasoning systems) बनवत असाल, तर तुमचे रुब्रिक्स थेट एनकोड करा. केवळ अंतिम स्कोअरवर अवलंबून राहू नका.
Optional learning community: https://t.me/GyaanSetuAi