𝗥 𝟰𝗕: 𝗔𝗨𝗧𝗢 𝗧𝗛𝗜𝗡𝗞𝗜𝗡𝗚 𝗜𝗡 𝗠𝗟𝗟𝗠𝗦

Translated for your language. Read the original.

AI-assisted draft.

R-4B: MLLMs ਵਿੱਚ ਆਟੋ-ਥਿੰਕਿੰਗ

ਵੱਡੇ ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਅਕਸਰ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕੰਮਾਂ ਲਈ ਡੂੰਘੀ ਸੋਚ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਉਹ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

R-4B ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਵਿਧੀ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦੀ ਹੈ। ਇਹ ਦੋ ਮੁੱਖ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ:

Bi-Mode Annealing
Reinforcement Learning

ਇਹ ਪਹੁੰਚ ਮਾਡਲਾਂ ਨੂੰ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਸੋਚਣਾ ਸਿਖਾਉਂਦੀ ਹੈ। ਇਹ ਸਿਰਫ਼ ਪੈਟਰਨ ਮੈਚਿੰਗ ਦੀ ਬਜਾਏ ਆਮ ਤਰਕ ਕੌਸ਼ਲ (general reasoning skills) ਵਿਕਸਿਤ ਕਰਦੀ ਹੈ।

ਖੋਜ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਆਟੋ-ਥਿੰਕਿੰਗ ਨੂੰ ਕਿਵੇਂ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਤਰਕ (complex logic) ਅਤੇ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ (visual reasoning) ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ।

ਮੁੱਖ ਲਾਭ:

ਬਿਹਤਰ ਤਰਕ ਸ਼ੁੱਧਤਾ (Better reasoning accuracy)
ਵਧੇਰੇ ਸਥਿਰ ਸਿਖਲਾਈ (More stable training)
ਔਖੇ ਕੰਮਾਂ 'ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ (Improved performance on hard tasks)

ਜੇਕਰ ਤੁਸੀਂ ਮਲਟੀਮੋਡਲ AI ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸ ਵੱਲ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਤਰਕ ਕਰਨ ਲਈ ਸਿਖਾਉਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ।

Source: https://dev.to/paperium/r-4b-incentivizing-general-purpose-auto-thinking-capability-in-mllms-viabi-mode-annealing-and-1210

Optional learning community: https://t.me/GyaanSetuAi

𝗥 𝟰𝗕: 𝗔𝗨𝗧𝗢 𝗧𝗛𝗜𝗡𝗞𝗜𝗡𝗚 𝗜𝗡 𝗠𝗟𝗟𝗠𝗦

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗜𝗻𝘁𝗲𝗿𝗻𝗟𝗠 𝗠𝗮𝘁𝗵: 𝗩𝗲𝗿𝗶𝗳𝗶𝗮𝗯𝗹𝗲 𝗠𝗮𝘁𝗵 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴

𝗨𝗻𝘀𝘂𝗽𝗲𝗿𝘃𝗶𝘀𝗲𝗱 𝗠𝗲𝘁𝗮 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗳𝗼𝗿 𝗥𝗲𝗶𝗻𝗳𝗼𝗿𝗰𝗲𝗺𝗲𝗻𝘁 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

𝗔𝗴𝗲𝗻𝘁 𝗥: 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗠𝗼𝗱𝗲𝗹 𝗔𝗴𝗲𝗻𝘁𝘀 𝘁𝗼 𝗥𝗲𝗳𝗹𝗲𝗰𝘁

𝗖𝗵𝗮𝗶𝗻 𝗼𝗳 𝗧𝗵𝗼𝘂𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗪𝗶𝘁𝗵𝗼𝘂𝘁 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴