Microsoft کا SkillOpt، Markdown کی اصلاح کے ذریعے GPT-5.5 کی کارکردگی میں اضافہ کرتا ہے

Microsoft اور تین چینی یونیورسٹیوں کے محققین نے SkillOpt کا انکشاف کیا ہے، جو کہ ایک انقلابی طریقہ کار ہے جو ہدایاتی Markdown فائلوں کو قابلِ تربیت پیرامیٹرز (trainable parameters) کے طور پر استعمال کرتا ہے۔ ان "مہارت" (skill) دستاویزات کو بہتر بنا کر، محققین نے طریقہ کار سے متعلقہ کاموں (procedural tasks) پر GPT-5.5 کی کارکردگی میں 23 پوائنٹس کا بڑا اضافہ حاصل کیا۔

متن کو قابلِ تربیت ویٹس (Trainable Weights) کے طور پر استعمال کرنا

موجودہ AI کے منظر نامے میں، "مہارتیں" (skills)—یعنی وہ ماڈیولر ہدایات جو ایجنٹس کی مخصوص طریقہ کار، ٹول کے استعمال کے قواعد، اور آؤٹ پٹ فارمیٹس کے ذریعے رہنمائی کرتی ہیں—صنعتی معیار بن رہی ہیں۔ اگرچہ Anthropic جیسی کمپنیاں Claude کو بہتر بنانے کے لیے انہیں استعمال کرتی ہیں، لیکن روایتی طور پر یہ دستاویزات انسانوں کے ذریعے لکھی جاتی ہیں یا کسی LLM کے ذریعے ایک ہی بار میں تیار کی جاتی ہیں۔ ان میں سے کوئی بھی طریقہ کار ایک حقیقی آپٹیمائزر (optimizer) کے طور پر کام نہیں کرتا۔

SkillOpt اس تصور کو تبدیل کر دیتا ہے، یہ ایک Markdown فائل کو ایک فریز شدہ ٹارگٹ ماڈل کے لیے بیرونی، قابلِ تربیت حالت (trainable state) کے طور پر استعمال کرتا ہے۔ ماڈل کے ویٹس (weights) کو اپ ڈیٹ کرنے کے بجائے، ایک دوسرا "آپٹیمائزر" لینگویج ماڈل ایگزیکیوشن لاگز (execution logs) کا تجزیہ کرتا ہے تاکہ بار بار ہونے والی غلطیوں اور کامیابیوں کی نشاندہی کی جا سکے۔ یہ آپٹیمائزر Markdown دستاویز کے اندر مخصوص اقتباسات کو شامل کرنے، حذف کرنے یا تبدیل کرنے جیسی درست تبدیلیاں (surgical edits) تجویز کرتا ہے۔ اہم بات یہ ہے کہ یہ تبدیلیاں صرف اسی صورت میں قبول کی جاتی ہیں اگر وہ ایک علیحدہ ویلیڈیشن سیٹ (validation set) پر قابلِ پیمائش بہتری لائیں۔

نثر پر لاگو ہونے والے ڈیپ لرننگ کے تصورات

SkillOpt کی مہارت اس بات میں ہے کہ یہ کس طرح روایتی ڈیپ لرننگ میکانکس کو متن کی سطح پر آپٹیمائزیشن کے ساتھ جوڑتا ہے۔ محققین نے استحکام کو یقینی بنانے کے لیے کئی پیچیدہ کنٹرول میکانزم نافذ کیے ہیں:

  • Learning Rate اور Schedulers: لرننگ ریٹ (learning rate) فی مرحلہ جائز ترمیموں کی تعداد کو محدود کرتا ہے، جبکہ شیڈیولر (scheduler) اتار چڑھاؤ سے بچنے کے لیے ٹریننگ کے دورانیے (epochs) کے دوران ترمیم کے سائز کو کم کرتا جاتا ہے۔
  • Negative Feedback Buffers: مسترد شدہ ترامیم کو ایک بفر میں محفوظ کیا جاتا ہے، جو منفی مثالوں کے طور پر کام کرتے ہیں تاکہ آپٹیمائزر کو وہی غلطیاں دہرانے سے روکا جا سکے۔
  • Gradient Smoothing: ہر ایپوک (epoch) کے اختتام پر ایک "سلو اپ ڈیٹ" (slow update) میکانزم مستحکم ترمیم کی سمت کو برقرار رکھتا ہے، جو بالکل اسی طرح کام کرتا ہے جیسے گریڈینٹ اسموتھنگ (gradient smoothing) روایتی نیورل نیٹ ورک کی ٹریننگ کو مستحکم کرتی ہے۔

ذمہ داریوں کی اس تقسیم کا مطلب یہ ہے کہ اصل بھاری کام ٹریننگ کے دوران ہوتا ہے۔ انفرنس (inference) کے وقت، ٹارگٹ ماڈل ہلکا پھلکا رہتا ہے، اور اسے سیاق و سباق (context) کے طور پر محض 300 سے 2,000 ٹوکنز پر مشتمل ایک مختصر Markdown فائل موصول ہوتی ہے۔

بینچ مارک پر غلبہ اور کراس ماڈل ٹرانسفر ایبلٹی

تجرباتی نتائج اہم ہیں۔ چھ بینچ مارکس—بشمول سرچ، ریاضی، اسپریڈ شیٹس، اور ایمباڈیڈ ایکشن (embodied action)—پر ٹیسٹنگ کے دوران، SkillOpt نے مسلسل ہینڈ رائٹن اسکلز اور TextGrad اور EvoSkill جیسے مخصوص طریقوں سے بہتر کارکردگی دکھائی۔ براہ راست چیٹ میں GPT-5.5 پر، اس طریقے نے اوسطاً تقریباً 23 پوائنٹس کی کارکردگی میں اضافہ کیا۔

سب سے زیادہ اثر انگیز نتائج میں سے ایک اس طریقے کی ٹرانسفرایبلٹی (transferability) ہے۔ GPT-5.5 جیسے بڑے ماڈل کے لیے آپٹیمائزڈ اسکل کو بہت چھوٹے ماڈلز، جیسے کہ Qwen3.5-4B، پر لاگو کیا جا سکتا ہے، جو مؤثر طریقے سے انہیں وہ طریقہ کار سے متعلقہ معلومات (procedural knowledge) فراہم کرتا ہے جو ان کے اصل ویٹس (native weights) میں موجود نہیں ہوتیں۔ مزید برآں، اسکلز ماحول سے آزاد (environment-agnostic) ہیں؛ Codex لوپ میں تربیت یافتہ اسپریڈ شیٹ اسکل بغیر کسی دوبارہ تربیت کے Claude Code میں بلا تعطل کام کرتی ہے۔

مثال کے طور پر، اسپریڈ شیٹ کے کاموں میں، آپٹیمائزڈ اسکل فارمولوں پر انحصار کرنے کے بجائے پہلے ورک شیٹ کے ڈھانچے کو چیک کرنا اور براہ راست ایویلیوایٹڈ ویلیوز (evaluated values) لکھنا سیکھتی ہے۔ ALFWorld جیسے ایمباڈیڈ AI کاموں میں، اسکل وزٹ کردہ مقامات کا لاگ برقرار رکھنا سیکھتی ہے تاکہ اس بات کو یقینی بنایا جا سکے کہ مقاصد صحیح ترتیب سے پورے ہوں۔

اہم نکات

  • ٹیکسٹ پر مبنی آپٹیمائزیشن: SkillOpt مارک ڈاؤن انسٹرکشن فائلوں کو ٹرین ایبل اسٹیٹس (trainable states) کے طور پر لیتا ہے، اور انہیں ماڈل ویٹس کی طرح آپٹیمائز کرنے کے لیے دوسرے LLM کا استعمال کرتا ہے۔
  • کارکردگی میں بڑا اضافہ: اس طریقے نے طریقہ کار کے بینچ مارکس پر GPT-5.5 کی کارکردگی میں اوسطاً 23 پوائنٹس کا اضافہ کیا، خاص طور پر ٹول کے استعمال اور سخت فارمیٹنگ کے کاموں میں بہترین کارکردگی دکھائی۔
  • موثر اور ٹرانسفر ایبل: آپٹیمائزڈ اسکلز مختصر (2,000 ٹوکنز سے کم) ہوتی ہیں اور انہیں بڑے ماڈلز سے چھوٹے ماڈلز میں یا مختلف ایجنٹ ماحول کے درمیان منتقل کیا جا سکتا ہے۔