𝗥-𝟰𝗕: 𝗠𝗟𝗟𝗠-களில் ஆட்டோ-திங்கிங் (𝗔𝗨𝗧𝗢-𝗧𝗛𝗜𝗡𝗞𝗜𝗡𝗚)

பெரிய மல்டிமாடல் மாடல்கள் (Large Multimodal Models) பெரும்பாலும் தர்க்கரீதியான சிந்தனையில் (reasoning) சிரமப்படுகின்றன. ஆழமான சிந்தனை தேவைப்படும் பணிகளில் அவை தோல்வியடைகின்றன.

R-4B எனப்படும் புதிய முறை இந்த சிக்கலைத் தீர்க்கிறது. இது இரண்டு முக்கிய நுட்பங்களைப் பயன்படுத்துகிறது:

  • Bi-Mode Annealing
  • Reinforcement Learning

இந்த அணுகுமுறை மாடல்கள் பதிலளிப்பதற்கு முன் சிந்திக்கக் கற்றுக்கொடுக்கிறது. இது வெறும் பேட்டர்ன் மேட்சிங்கிற்கு (pattern matching) பதிலாக பொதுவான தர்க்கரீதியான திறன்களை உருவாக்குகிறது.

ஆட்டோ-திங்கிங்கை (auto-thinking) எவ்வாறு ஊக்குவிப்பது என்பதை இந்த ஆராய்ச்சி காட்டுகிறது. இது சிக்கலான தர்க்கம் மற்றும் காட்சி சார்ந்த சிந்தனையை (visual reasoning) கையாளுவதில் மாடல்களை மேம்படுத்துகிறது.

முக்கிய நன்மைகள்:

  • சிறந்த தர்க்கரீதியான துல்லியம் (reasoning accuracy)
  • அதிக நிலையான பயிற்சி (stable training)
  • கடினமான பணிகளில் மேம்பட்ட செயல்பாடு

நீங்கள் மல்டிமாடல் AI-யுடன் பணிபுரிபவர் என்றால், இதை நீங்கள் கவனிக்க வேண்டும். மாடல்களுக்கு தர்க்கரீதியாகச் சிந்திக்கப் பயிற்சி அளிக்கும் முறையை இது மாற்றியமைக்கிறது.

Source: https://dev.to/paperium/r-4b-incentivizing-general-purpose-auto-thinking-capability-in-mllms-viabi-mode-annealing-and-1210

Optional learning community: https://t.me/GyaanSetuAi