تقنية SkillOpt من Microsoft تعزز أداء GPT-5.5 عبر تحسين Markdown

كشفت Microsoft وباحثون من ثلاث جامعات صينية عن SkillOpt، وهي طريقة رائدة تتعامل مع ملفات Markdown التعليمية كمعاملات قابلة للتدريب. ومن خلال تحسين وثائق "المهارات" هذه، حقق الباحثون قفزة هائلة في الأداء بلغت 23 نقطة لنموذج GPT-5.5 في المهام الإجرائية.

التعامل مع النص كأوزان قابلة للتدريب

في المشهد الحالي للذكاء الاصطناعي، أصبحت "المهارات" — وهي تعليمات نمطية توجه الوكلاء عبر إجراءات محددة، وقواعد استخدام الأدوات، وتنسيقات المخرجات — معايير صناعية. وبينما تستخدم شركات مثل Anthropic هذه المهارات لتعزيز Claude، إلا أن هذه الوثائق تُكتب تقليديًا بواسطة البشر أو يتم إنشاؤها في تمريرة واحدة بواسطة نموذج لغوي كبير (LLM). ولا تعمل أي من الطريقتين كمُحسِّن حقيقي.

تُغير SkillOpt هذا النموذج من خلال التعامل مع ملف Markdown كحالة خارجية قابلة للتدريب لنموذج مستهدف مجمد. وبدلاً من تحديث أوزان النموذج، يقوم نموذج لغوي ثانٍ يعمل كـ "مُحسِّن" (optimizer) بتحليل سجلات التنفيذ لتحديد الأخطاء والنجاحات المتكررة. يقترح هذا المُحسِّن تعديلات دقيقة — مثل إضافة أو حذف أو استبدال فقرات محددة — داخل وثيقة Markdown. والأهم من ذلك، لا يتم قبول هذه التغييرات إلا إذا حققت تحسينات ملموسة على مجموعة بيانات تحقق مستقلة.

مفاهيم التعلم العميق المطبقة على النثر

تكمن عبقرية SkillOpt في كيفية إسقاط آليات التعلم العميق التقليدية على تحسين النصوص. وقد نفذ الباحثون عدة آليات تحكم متطورة لضمان الاستقرار:

  • معدل التعلم والمجدولات (Learning Rate and Schedulers): يضع معدل التعلم حداً أقصى لعدد التعديلات المسموح بها في كل خطوة، بينما تعمل المجدولات على تقليص حجم التعديل عبر دورات التدريب (epochs) لمنع التقلبات.
  • مخازن التغذية الراجعة السلبية (Negative Feedback Buffers): تُخزن التعديلات المرفوضة في مخزن مؤقت، لتكون بمثابة أمثلة سلبية تمنع المُحسِّن من تكرار نفس الأخطاء.
  • تنعيم التدرج (Gradient Smoothing): تعمل آلية "التحديث البطيء" في نهاية كل دورة تدريبية على الحفاظ على اتجاهات تعديل مستقرة، مما يحاكي كيفية قيام تنعيم التدرج بتثبيت تدريب الشبكات العصبية التقليدية.

يعني هذا الفصل في المهام أن العمل الشاق يحدث أثناء التدريب. أما في وقت الاستدلال (inference time)، فيظل النموذج المستهدف خفيف الوزن، حيث يتلقى ببساطة ملف Markdown مدمج يتراوح بين 300 إلى 2,000 token كـ سياق.

الهيمنة على المعايير المرجعية وقابلية النقل عبر النماذج

النتائج التجريبية جوهرية. من خلال الاختبار عبر ستة معايير مرجعية — تشمل البحث، والرياضيات، وجداول البيانات، والعمل المجسد — تفوقت SkillOpt باستمرار على المهارات المكتوبة يدويًا والأساليب المتخصصة مثل TextGrad و EvoSkill. وفي GPT-5.5 عبر الدردشة المباشرة، حققت الطريقة زيادة في متوسط الأداء بنحو 23 نقطة تقريبًا.

أحد أكثر النتائج تأثيرًا هو قابلية الطريقة للنقل. إذ يمكن تطبيق المهارة التي تم تحسينها لنموذج كبير مثل GPT-5.5 على نماذج أصغر بكثير، مثل Qwen3.5-4B، مما يزودها بفعالية بالمعرفة الإجرائية التي تفتقر إليها في أوزانها الأصلية. علاوة على ذلك، فإن المهارات مستقلة عن البيئة؛ فالمهارة الخاصة بجداول البيانات التي تم تدريبها في حلقة Codex تعمل بسلاسة في Claude Code دون الحاجة إلى إعادة التدريب.

على سبيل المثال، في مهام جداول البيانات، تتعلم المهارة المُحسّنة فحص هياكل أوراق العمل أولاً وكتابة القيم المُقيمة مباشرة بدلاً من الاعتماد على الصيغ. وفي مهام الذكاء الاصطناعي المجسد مثل ALFWorld، تتعلم المهارة الاحتفاظ بسجل للمواقع التي تمت زيارتها لضمان تحقيق الأهداف بالترتيب الصحيح.

أهم الاستنتاجات

  • التحسين القائم على النصوص: تعامل SkillOpt ملفات تعليمات Markdown كحالات قابلة للتدريب، باستخدام نموذج LLM ثانٍ لتحسينها تمامًا مثل أوزان النموذج.
  • مكاسب هائلة في الأداء: عززت الطريقة أداء GPT-5.5 بمتوسط 23 نقطة في المعايير المرجعية الإجرائية، وتفوقت بشكل خاص في استخدام الأدوات ومهام التنسيق الصارمة.
  • كفاءة وقابلية للنقل: المهارات المُحسّنة مدمجة (أقل من 2,000 توكن) ويمكن نقلها من النماذج الكبيرة إلى النماذج الأصغر أو بين بيئات الوكلاء المختلفة.