𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

२ दिवसांपूर्वी2min read

संशोधक आता AI प्रशिक्षणासाठी साध्या स्कोअरपासून (गुणांक) दूर जात आहेत. ते आता अधिक समृद्ध सिग्नलचा (संकेतांचा) वापर करत आहेत.

'Rethinking Reward Supervision' नावाचा एक नवीन शोधनिबंध (paper) हा बदल का महत्त्वाचा आहे हे दर्शवतो. बहुतेक प्रशिक्षण पद्धती डेटाला एका सिंगल नंबरमध्ये (एका अंकात) संकुचित करतात. एक सिंगल स्कोअर तुम्हाला उत्तर चांगले आहे की वाईट हे सांगतो, पण ते का आहे हे सांगत नाही.

सध्याच्या पद्धतींच्या काही मर्यादा आहेत:

सुपरवाइज्ड डिस्टिलेशन (Supervised distillation) हे 'chain-of-thought' उदाहरणांवर अवलंबून असते. ही उदाहरणे खर्चिक असतात आणि अनेकदा अपूर्ण असतात. जर मॉडेलने चुकीचे स्पष्टीकरण कॉपी केले, तर ते चुकीची गोष्ट शिकते.
रिइन्फोर्समेंट लर्निंग (Reinforcement learning) रिवॉर्ड्सचा वापर करते. रिवॉर्ड एक सिंगल नंबर देतो. यामुळे 'क्रेडिट असाइनमेंट' (credit assignment) करणे कठीण होते. मॉडेलला निकाल माहित असतो, पण नेमकी कोणती पायरी चुकली हे त्याला समजत नाही.

रुब्रिक्स (Rubrics) ही समस्या सोडवतात. ते एक साधा स्कोअर आणि पूर्ण स्पष्टीकरण यांच्या दरम्यान काम करतात.

ही प्रक्रिया दोन टप्प्यांत काम करते:

सिस्टम कामासाठी विशिष्ट (task-specific) रुब्रिक्स तयार करते. विज्ञानाच्या बाबतीत, याचा अर्थ युनिट्स किंवा गृहितके (assumptions) तपासणे असा होतो.
टीचर मॉडेल विद्यार्थ्याला (student model) मार्गदर्शन करण्यासाठी या रुब्रिक्सचा वापर करते. यामुळे 'टोकन-लेव्हल' (token-level) मार्गदर्शन मिळते. रुब्रिक मॉडेलला नेमके सांगते की त्याचे स्पष्टीकरण कुठे कमकुवत आहे.

या दृष्टिकोनाचे तीन फायदे आहेत:

उत्तम क्रेडिट असाइनमेंट. मॉडेल संपूर्ण प्रयत्न बाद करण्याऐवजी विशिष्ट चुकांमधून शिकते.
पुन्हा वापरण्यायोग्य सुपरव्हिजन. एकच रुब्रिक अनेक वेगवेगळ्या उत्तरांना मार्गदर्शन करू शकते.
उत्तम स्केलिंग. रुब्रिक्स अनेक पायऱ्या असलेल्या जटिल कामांना 'पास' किंवा 'फेल' यांसारख्या साध्या लेबलपेक्षा अधिक चांगल्या प्रकारे हाताळू शकतात.

हा शोधनिबंध दर्शवतो की विज्ञानातील तर्कशुद्धता (science reasoning) करण्याच्या कामांमध्ये ही पद्धत GRPO आणि OPSD सारख्या सध्याच्या मॉडेल्सपेक्षा सरस ठरते.

धडा स्पष्ट आहे. जर एखाद्या कामाची रचना (structure) असेल, तर ती तुमच्या ट्रेनिंग लूपमध्ये कायम ठेवा. तुमचा डेटा खूप लवकर एका सिंगल नंबरमध्ये रूपांतरित करू नका.

तुम्ही रुब्रिक्स, अनसर्टेन्टी-बेस्ड प्लॅनिंग (uncertainty-based planning) किंवा प्रोग्रामॅटिक स्पष्टीकरणे वापरा, उद्दिष्ट एकच आहे: लपलेले वर्तन स्पष्ट सिग्नलमध्ये रूपांतरित करणे.

जर तुम्ही रिझनिंग सिस्टम्स (reasoning systems) बनवत असाल, तर तुमचे रुब्रिक्स थेट एनकोड करा. केवळ अंतिम स्कोअरवर अवलंबून राहू नका.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Continue reading

AI म्हणजे केवळ प्रॉम्प्ट्स नव्हे

एआय (AI) म्हणजे केवळ प्रॉम्प्ट्स नव्हे

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

AI प्रॉम्प्ट्ससाठी मार्कडाउन फॉरमॅटिंग

OpenAI आणि Anthropic AI सिस्टम्स कशा डिझाइन करतात