SkillOpt مایکروسافت با بهینه‌سازی Markdown، عملکرد GPT-5.5 را ارتقا می‌دهد

مایکروسافت و پژوهشگرانی از سه دانشگاه چینی از SkillOpt رونمایی کردند؛ روشی پیشگامانه که فایل‌های آموزشی Markdown را به عنوان پارامترهای قابل آموزش در نظر می‌گیرد. پژوهشگران با بهینه‌سازی این اسناد «مهارتی»، به جهش عظیم ۲۳ امتیازی در عملکرد GPT-5.5 در وظایف رویه‌ای (procedural tasks) دست یافتند.

برخورد با متن به عنوان وزن‌های قابل آموزش

در چشم‌انداز فعلی هوش مصنوعی، «مهارت‌ها» — دستورالعمل‌های ماژولاری که عامل‌ها (agents) را از طریق رویه‌های خاص، قوانین استفاده از ابزار و قالب‌های خروجی هدایت می‌کنند — در حال تبدیل شدن به استانداردهای صنعت هستند. در حالی که شرکت‌هایی مانند Anthropic از این‌ها برای بهبود Claude استفاده می‌کنند، این اسناد به‌طور سنتی توسط انسان‌ها نوشته می‌شوند یا در یک مرحله توسط یک LLM تولید می‌گردند. هیچ‌کدام از این روش‌ها به عنوان یک بهینه‌ساز (optimizer) واقعی عمل نمی‌کنند.

SkillOpt این پارادایم را با در نظر گرفتن یک فایل Markdown به عنوان یک وضعیت خارجی و قابل آموزش برای یک مدل هدفِ منجمد (frozen) تغییر می‌دهد. به جای به‌روزرسانی وزن‌های مدل، یک مدل زبانی دوم به عنوان «بهینه‌ساز»، لاگ‌های اجرا را برای شناسایی خطاها و موفقیت‌های تکرارشونده تحلیل می‌کند. این بهینه‌ساز ویرایش‌های دقیق و هدفمندی را پیشنهاد می‌دهد — شامل افزودن، حذف یا جایگزینی بخش‌های خاص — در داخل یک سند Markdown. نکته حیاتی این است که این تغییرات تنها در صورتی پذیرفته می‌شوند که منجر به بهبودهای قابل اندازه‌گیری در یک مجموعه اعتبارسنجی (validation set) مجزا شوند.

به‌کارگیری مفاهیم یادگیری عمیق در نثر

نبوغ SkillOpt در نحوه نگاشت مکانیسم‌های سنتی یادگیری عمیق بر بهینه‌سازی در سطح متن نهفته است. پژوهشگران چندین مکانیسم کنترلی پیچیده را برای تضمین پایداری پیاده‌سازی کردند:

  • نرخ یادگیری و زمان‌بندها (Schedulers): نرخ یادگیری تعداد ویرایش‌های مجاز در هر مرحله را محدود می‌کند، در حالی که یک زمان‌بند، اندازه ویرایش را در طول دوره‌های آموزشی (epochs) کاهش می‌دهد تا از بی‌ثباتی جلوگیری شود.
  • بافرهای بازخورد منفی: ویرایش‌های رد شده در یک بافر ذخیره می‌شوند و به عنوان نمونه‌های منفی عمل می‌کنند تا از تکرار همان اشتباهات توسط بهینه‌ساز جلوگیری کنند.
  • هموارسازی گرادیان (Gradient Smoothing): یک مکانیسم «به‌روزرسانی کند» در پایان هر دوره (epoch)، جهت‌های ویرایش پایدار را حفظ می‌کند که مشابه روش هموارسازی گرادیان برای تثبیت آموزش شبکه‌های عصبی سنتی است.

این تفکیک وظایف به این معناست که بخش اصلی محاسبات سنگین در طول آموزش انجام می‌شود. در زمان استنتاج (inference)، مدل هدف سبک باقی می‌ماند و صرفاً یک فایل Markdown فشرده شامل ۳۰۰ تا ۲۰۰۰ توکن را به عنوان متن زمینه (context) دریافت می‌کند.

تسلط بر بنچمارک‌ها و قابلیت انتقال بین مدل‌ها

نتایج تجربی قابل توجه هستند. آزمایش بر روی شش بنچمارک — شامل جستجو، ریاضیات، صفحات گسترده و اقدامات تجسم‌یافته (embodied action) — نشان داد که SkillOpt به‌طور مداوم از مهارت‌های دستی‌نوشته و روش‌های تخصصی مانند TextGrad و EvoSkill عملکرد بهتری داشته است. در مدل GPT-5.5 در چت مستقیم، این روش منجر به افزایش میانگین عملکرد در حدود ۲۳ امتیاز شد.

یکی از تأثیرگذارترین یافته‌ها، قابلیت انتقال (transferability) این روش است. مهارتی که برای یک مدل بزرگ مانند GPT-5.5 بهینه‌سازی شده است، می‌تواند برای مدل‌های بسیار کوچک‌تر مانند Qwen3.5-4B نیز به کار رود و به‌طور مؤثری دانش رویه‌ای (procedural knowledge) را که در وزن‌های اصلی آن‌ها وجود ندارد، فراهم کند. علاوه بر این، مهارت‌ها مستقل از محیط (environment-agnostic) هستند؛ یک مهارت مربوط به صفحات گسترده که در یک حلقه Codex آموزش دیده است، بدون نیاز به آموزش مجدد، به‌طور یکپارچه در Claude Code عمل می‌کند.

برای مثال، در وظایف مربوط به صفحات گسترده، مهارت بهینه‌سازی‌شده یاد می‌گیرد که ابتدا ساختارهای کاربرگ (worksheet) را بررسی کند و به‌جای تکیه بر فرمول‌ها، مقادیر ارزیابی‌شده را مستقیماً بنویسد. در وظایف هوش مصنوعی تجسم‌یافته مانند ALFWorld، مهارت یاد می‌گیرد که گزارشی (log) از مکان‌های بازدید شده را نگه دارد تا اطمینان حاصل شود که اهداف به ترتیب صحیح محقق می‌شوند.

نکات کلیدی

  • بهینه‌سازی مبتنی بر متن: SkillOpt با فایل‌های دستورالعمل Markdown به‌عنوان حالت‌های قابل آموزش برخورد می‌کند و از یک LLM دوم برای بهینه‌سازی آن‌ها، بسیار شبیه به وزن‌های مدل، استفاده می‌کند.
  • افزایش چشمگیر عملکرد: این روش عملکرد GPT-5.5 را در بنچمارک‌های رویه‌ای به‌طور میانگین ۲۳ امتیاز افزایش داد و به‌طور ویژه در استفاده از ابزار و وظایف با قالب‌بندی دقیق (strict formatting) برتری یافت.
  • کارآمد و قابل انتقال: مهارت‌های بهینه‌سازی‌شده فشرده هستند (کمتر از ۲۰۰۰ توکن) و می‌توان آن‌ها را از مدل‌های بزرگ به مدل‌های کوچک‌تر یا بین محیط‌های مختلف عامل (agent environments) منتقل کرد.