R 4B: MLLMs में ऑटो थिंकिंग

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial10 घंटे पहले1मिनट पढ़ें

R-4B: MLLMs में ऑटो-थिंकिंग

लार्ज मल्टीमॉडल मॉडल्स (Large Multimodal Models) अक्सर रीजनिंग (reasoning) में संघर्ष करते हैं। जब कार्यों के लिए गहन सोच की आवश्यकता होती है, तो वे विफल हो जाते हैं।

R-4B नामक एक नई विधि इस समस्या का समाधान करती है। यह दो मुख्य तकनीकों का उपयोग करती है:

Bi-Mode Annealing
Reinforcement Learning

यह दृष्टिकोण मॉडल्स को उत्तर देने से पहले सोचने के लिए प्रशिक्षित करता है। यह केवल पैटर्न मैचिंग के बजाय सामान्य रीजनिंग कौशल विकसित करता है।

यह शोध दिखाता है कि ऑटो-थिंकिंग को कैसे प्रोत्साहित किया जाए। यह मॉडल्स को जटिल लॉजिक और विजुअल रीजनिंग को संभालने में बेहतर बनाता है।

मुख्य लाभ:

बेहतर रीजनिंग सटीकता
अधिक स्थिर ट्रेनिंग
कठिन कार्यों पर बेहतर प्रदर्शन

यदि आप मल्टीमॉडल AI के साथ काम करते हैं, तो आपको इस पर नज़र डालनी चाहिए। यह मॉडल्स को रीजनिंग के लिए प्रशिक्षित करने के हमारे तरीके को बदल देता है।

Source: https://dev.to/paperium/r-4b-incentivizing-general-purpose-auto-thinking-capability-in-mllms-viabi-mode-annealing-and-1210

Optional learning community: https://t.me/GyaanSetuAi

R 4B: MLLMs में ऑटो थिंकिंग

पढ़ना जारी रखें

AI के लिए एकीकृत रिवॉर्ड मॉडल

InternLM Math: सत्यापन योग्य गणितीय तर्क

Reinforcement Learning के लिए Unsupervised Meta Learning

एजेंट आर: लैंग्वेज मॉडल एजेंटों को आत्म-चिंतन के लिए प्रशिक्षित करना

बिना प्रॉम्प्टिंग के चेन ऑफ थॉट रीजनिंग