R-4B: MLLMs ਵਿੱਚ ਆਟੋ-ਥਿੰਕਿੰਗ

ਵੱਡੇ ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਅਕਸਰ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕੰਮਾਂ ਲਈ ਡੂੰਘੀ ਸੋਚ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਉਹ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

R-4B ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਵਿਧੀ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦੀ ਹੈ। ਇਹ ਦੋ ਮੁੱਖ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ:

  • Bi-Mode Annealing
  • Reinforcement Learning

ਇਹ ਪਹੁੰਚ ਮਾਡਲਾਂ ਨੂੰ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਸੋਚਣਾ ਸਿਖਾਉਂਦੀ ਹੈ। ਇਹ ਸਿਰਫ਼ ਪੈਟਰਨ ਮੈਚਿੰਗ ਦੀ ਬਜਾਏ ਆਮ ਤਰਕ ਕੌਸ਼ਲ (general reasoning skills) ਵਿਕਸਿਤ ਕਰਦੀ ਹੈ।

ਖੋਜ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਆਟੋ-ਥਿੰਕਿੰਗ ਨੂੰ ਕਿਵੇਂ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਤਰਕ (complex logic) ਅਤੇ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ (visual reasoning) ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ।

ਮੁੱਖ ਲਾਭ:

  • ਬਿਹਤਰ ਤਰਕ ਸ਼ੁੱਧਤਾ (Better reasoning accuracy)
  • ਵਧੇਰੇ ਸਥਿਰ ਸਿਖਲਾਈ (More stable training)
  • ਔਖੇ ਕੰਮਾਂ 'ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ (Improved performance on hard tasks)

ਜੇਕਰ ਤੁਸੀਂ ਮਲਟੀਮੋਡਲ AI ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਵੱਲ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਤਰਕ ਕਰਨ ਲਈ ਸਿਖਾਉਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ।

Source: https://dev.to/paperium/r-4b-incentivizing-general-purpose-auto-thinking-capability-in-mllms-viabi-mode-annealing-and-1210

Optional learning community: https://t.me/GyaanSetuAi