SkillOpt مایکروسافت با بهینهسازی Markdown، عملکرد GPT-5.5 را ارتقا میدهد
مایکروسافت و پژوهشگرانی از سه دانشگاه چینی از SkillOpt رونمایی کردند؛ روشی پیشگامانه که فایلهای آموزشی Markdown را به عنوان پارامترهای قابل آموزش در نظر میگیرد. پژوهشگران با بهینهسازی این اسناد «مهارتی»، به جهش عظیم ۲۳ امتیازی در عملکرد GPT-5.5 در وظایف رویهای (procedural tasks) دست یافتند.
برخورد با متن به عنوان وزنهای قابل آموزش
در چشمانداز فعلی هوش مصنوعی، «مهارتها» — دستورالعملهای ماژولاری که عاملها (agents) را از طریق رویههای خاص، قوانین استفاده از ابزار و قالبهای خروجی هدایت میکنند — در حال تبدیل شدن به استانداردهای صنعت هستند. در حالی که شرکتهایی مانند Anthropic از اینها برای بهبود Claude استفاده میکنند، این اسناد بهطور سنتی توسط انسانها نوشته میشوند یا در یک مرحله توسط یک LLM تولید میگردند. هیچکدام از این روشها به عنوان یک بهینهساز (optimizer) واقعی عمل نمیکنند.
SkillOpt این پارادایم را با در نظر گرفتن یک فایل Markdown به عنوان یک وضعیت خارجی و قابل آموزش برای یک مدل هدفِ منجمد (frozen) تغییر میدهد. به جای بهروزرسانی وزنهای مدل، یک مدل زبانی دوم به عنوان «بهینهساز»، لاگهای اجرا را برای شناسایی خطاها و موفقیتهای تکرارشونده تحلیل میکند. این بهینهساز ویرایشهای دقیق و هدفمندی را پیشنهاد میدهد — شامل افزودن، حذف یا جایگزینی بخشهای خاص — در داخل یک سند Markdown. نکته حیاتی این است که این تغییرات تنها در صورتی پذیرفته میشوند که منجر به بهبودهای قابل اندازهگیری در یک مجموعه اعتبارسنجی (validation set) مجزا شوند.
بهکارگیری مفاهیم یادگیری عمیق در نثر
نبوغ SkillOpt در نحوه نگاشت مکانیسمهای سنتی یادگیری عمیق بر بهینهسازی در سطح متن نهفته است. پژوهشگران چندین مکانیسم کنترلی پیچیده را برای تضمین پایداری پیادهسازی کردند:
- نرخ یادگیری و زمانبندها (Schedulers): نرخ یادگیری تعداد ویرایشهای مجاز در هر مرحله را محدود میکند، در حالی که یک زمانبند، اندازه ویرایش را در طول دورههای آموزشی (epochs) کاهش میدهد تا از بیثباتی جلوگیری شود.
- بافرهای بازخورد منفی: ویرایشهای رد شده در یک بافر ذخیره میشوند و به عنوان نمونههای منفی عمل میکنند تا از تکرار همان اشتباهات توسط بهینهساز جلوگیری کنند.
- هموارسازی گرادیان (Gradient Smoothing): یک مکانیسم «بهروزرسانی کند» در پایان هر دوره (epoch)، جهتهای ویرایش پایدار را حفظ میکند که مشابه روش هموارسازی گرادیان برای تثبیت آموزش شبکههای عصبی سنتی است.
این تفکیک وظایف به این معناست که بخش اصلی محاسبات سنگین در طول آموزش انجام میشود. در زمان استنتاج (inference)، مدل هدف سبک باقی میماند و صرفاً یک فایل Markdown فشرده شامل ۳۰۰ تا ۲۰۰۰ توکن را به عنوان متن زمینه (context) دریافت میکند.
تسلط بر بنچمارکها و قابلیت انتقال بین مدلها
نتایج تجربی قابل توجه هستند. آزمایش بر روی شش بنچمارک — شامل جستجو، ریاضیات، صفحات گسترده و اقدامات تجسمیافته (embodied action) — نشان داد که SkillOpt بهطور مداوم از مهارتهای دستینوشته و روشهای تخصصی مانند TextGrad و EvoSkill عملکرد بهتری داشته است. در مدل GPT-5.5 در چت مستقیم، این روش منجر به افزایش میانگین عملکرد در حدود ۲۳ امتیاز شد.
یکی از تأثیرگذارترین یافتهها، قابلیت انتقال (transferability) این روش است. مهارتی که برای یک مدل بزرگ مانند GPT-5.5 بهینهسازی شده است، میتواند برای مدلهای بسیار کوچکتر مانند Qwen3.5-4B نیز به کار رود و بهطور مؤثری دانش رویهای (procedural knowledge) را که در وزنهای اصلی آنها وجود ندارد، فراهم کند. علاوه بر این، مهارتها مستقل از محیط (environment-agnostic) هستند؛ یک مهارت مربوط به صفحات گسترده که در یک حلقه Codex آموزش دیده است، بدون نیاز به آموزش مجدد، بهطور یکپارچه در Claude Code عمل میکند.
برای مثال، در وظایف مربوط به صفحات گسترده، مهارت بهینهسازیشده یاد میگیرد که ابتدا ساختارهای کاربرگ (worksheet) را بررسی کند و بهجای تکیه بر فرمولها، مقادیر ارزیابیشده را مستقیماً بنویسد. در وظایف هوش مصنوعی تجسمیافته مانند ALFWorld، مهارت یاد میگیرد که گزارشی (log) از مکانهای بازدید شده را نگه دارد تا اطمینان حاصل شود که اهداف به ترتیب صحیح محقق میشوند.
نکات کلیدی
- بهینهسازی مبتنی بر متن: SkillOpt با فایلهای دستورالعمل Markdown بهعنوان حالتهای قابل آموزش برخورد میکند و از یک LLM دوم برای بهینهسازی آنها، بسیار شبیه به وزنهای مدل، استفاده میکند.
- افزایش چشمگیر عملکرد: این روش عملکرد GPT-5.5 را در بنچمارکهای رویهای بهطور میانگین ۲۳ امتیاز افزایش داد و بهطور ویژه در استفاده از ابزار و وظایف با قالببندی دقیق (strict formatting) برتری یافت.
- کارآمد و قابل انتقال: مهارتهای بهینهسازیشده فشرده هستند (کمتر از ۲۰۰۰ توکن) و میتوان آنها را از مدلهای بزرگ به مدلهای کوچکتر یا بین محیطهای مختلف عامل (agent environments) منتقل کرد.