𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ پرسوں2min read

اے آئی (AI) ٹریننگ میں منظم فیڈ بیک کیوں اہمیت رکھتا ہے

محققین اب اے آئی ٹریننگ کے لیے سادہ اسکورز کے بجائے زیادہ بھرپور سگنلز (signals) کا استعمال کر رہے ہیں۔

"Rethinking Reward Supervision" کے عنوان سے ایک نیا مقالہ دکھاتا ہے کہ یہ تبدیلی کیوں اہم ہے۔ زیادہ تر ٹریننگ کے طریقے ڈیٹا کو ایک واحد نمبر میں سمیٹ دیتے ہیں۔ ایک واحد اسکور آپ کو یہ تو بتاتا ہے کہ جواب اچھا ہے یا برا، لیکن یہ نہیں بتاتا کہ کیوں۔

موجودہ طریقوں کی کچھ حدود ہیں:

سپر وائزڈ ڈسٹلیشن (Supervised distillation) چین آف تھاٹ (chain-of-thought) کی مثالوں پر انحصار کرتی ہے۔ یہ مہنگی ہوتی ہیں اور اکثر نامکمل ہوتی ہیں۔ اگر کوئی ماڈل کسی ناقص وضاحت کی نقل کرتا ہے، تو وہ غلط چیز سیکھ لیتا ہے۔
ری انفورسمنٹ لرننگ (Reinforcement learning) انعامات (rewards) کا استعمال کرتی ہے۔ ایک انعام صرف ایک عدد دیتا ہے۔ اس سے کریڈٹ اسائنمنٹ (credit assignment) مشکل ہو جاتا ہے۔ ماڈل کو نتیجے کا تو علم ہوتا ہے لیکن یہ معلوم نہیں ہوتا کہ کون سا مخصوص مرحلہ ناکام رہا۔

ربرکس (Rubrics) اس مسئلے کا حل ہیں۔ یہ ایک سادہ اسکور اور مکمل وضاحت کے درمیان کا راستہ فراہم کرتے ہیں۔

یہ عمل دو مراحل میں کام کرتا ہے:

سسٹم کام کے لحاظ سے مخصوص ربرکس تیار کرتا ہے۔ سائنس کے لیے، اس کا مطلب یونٹس یا مفروضوں کی جانچ کرنا ہے۔
ٹیچر ماڈل طالب علم (student) کی رہنمائی کے لیے ان ربرکس کا استعمال کرتا ہے۔ یہ ٹوکن لیول (token-level) پر رہنمائی فراہم کرتا ہے۔ ربرک ماڈل کو بالکل صحیح طور پر بتاتا ہے کہ کہاں وضاحت کمزور ہے۔

یہ طریقہ کار تین فوائد فراہم کرتا ہے:

بہتر کریڈٹ اسائنمنٹ۔ ماڈل پورے عمل کو مسترد کرنے کے بجائے مخصوص غلطیوں سے سیکھتا ہے۔
دوبارہ استعمال کے قابل نگرانی۔ ایک ربرک کئی مختلف جوابات کی رہنمائی کر سکتا ہے۔
بہتر اسکیلنگ۔ ربرکس بائنری پاس یا فیل لیبل کے مقابلے میں کئی مراحل والے پیچیدہ کاموں کو بہتر طریقے سے سنبھالتے ہیں۔

مقالہ دکھاتا ہے کہ یہ طریقہ سائنس کے منطقی کاموں (science reasoning tasks) میں GRPO اور OPSD جیسے موجودہ ماڈلز کو پیچھے چھوڑ دیتا ہے۔

سبق واضح ہے۔ اگر کسی کام کا کوئی ڈھانچہ (structure) ہے، تو اسے اپنے ٹریننگ لوپ میں برقرار رکھیں۔ اپنے ڈیٹا کو بہت جلد ایک واحد نمبر میں تبدیل نہ کریں۔

چاہے آپ ربرکس استعمال کریں، ان سرٹینٹی پر مبنی منصوبہ بندی (uncertainty-based planning) یا پروگراماتی وضاحتیں (programmatic explanations)، مقصد ایک ہی ہے۔ پوشیدہ رویوں کو واضح سگنلز میں تبدیل کرنا۔

اگر آپ ریزننگ سسٹم (reasoning systems) بنا رہے ہیں، تو اپنے ربرکس کو براہ راست شامل کریں۔ صرف حتمی اسکور پر انحصار نہ کریں۔

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Continue reading

اے آئی صرف پرامپٹس سے کہیں زیادہ ہے

اے آئی پرامپٹس سے کہیں زیادہ ہے

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

اے آئی پرامپٹس کے لیے مارک ڈاؤن فارمیٹنگ

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀