Microsoft का SkillOpt Markdown ऑप्टिमाइज़ेशन के माध्यम से GPT-5.5 के प्रदर्शन को बढ़ाता है

Microsoft और तीन चीनी विश्वविद्यालयों के शोधकर्ताओं ने SkillOpt का अनावरण किया है, जो एक क्रांतिकारी तरीका है जो निर्देशात्मक Markdown फाइलों को ट्रेन करने योग्य पैरामीटर्स (trainable parameters) के रूप में मानता है। इन "स्किल" दस्तावेजों को ऑप्टिमाइज़ करके, शोधकर्ताओं ने प्रक्रियात्मक कार्यों (procedural tasks) पर GPT-5.5 के प्रदर्शन में 23 अंकों की भारी वृद्धि हासिल की है।

टेक्स्ट को ट्रेन करने योग्य वेट्स (Trainable Weights) के रूप में मानना

वर्तमान AI परिदृश्य में, "स्किल" (skills)—मॉड्यूलर निर्देश जो एजेंटों को विशिष्ट प्रक्रियाओं, टूल-उपयोग के नियमों और आउटपुट फॉर्मेट के माध्यम से मार्गदर्शन करते हैं—उद्योग मानक बनते जा रहे हैं। जबकि Anthropic जैसी कंपनियाँ Claude को बेहतर बनाने के लिए इनका उपयोग करती हैं, ये दस्तावेज़ पारंपरिक रूप से मनुष्यों द्वारा लिखे जाते हैं या एक LLM द्वारा सिंगल पास में जेनरेट किए जाते हैं। इनमें से कोई भी तरीका एक वास्तविक ऑप्टिमाइज़र के रूप में कार्य नहीं करता है।

SkillOpt एक फ्रोजन टारगेट मॉडल (frozen target model) के लिए Markdown फ़ाइल को एक बाहरी, ट्रेन करने योग्य स्टेट (trainable state) के रूप में मानकर इस प्रतिमान (paradigm) को बदल देता है। मॉडल के वेट्स को अपडेट करने के बजाय, एक दूसरा "ऑप्टिमाइज़र" लैंग्वेज मॉडल बार-बार होने वाली गलतियों और सफलताओं की पहचान करने के लिए निष्पादन लॉग (execution logs) का विश्लेषण करता है। यह ऑप्टिमाइज़र एक Markdown दस्तावेज़ के भीतर सटीक संपादन (surgical edits)—विशिष्ट अंशों को जोड़ना, हटाना या बदलना—प्रस्तावित करता है। महत्वपूर्ण बात यह है कि ये परिवर्तन केवल तभी स्वीकार किए जाते हैं जब वे एक होल्ड-आउट वैलिडेशन सेट (held-out validation set) पर मापने योग्य सुधार लाते हैं।

गद्य (Prose) पर लागू डीप लर्निंग अवधारणाएं

SkillOpt की खूबी इस बात में है कि यह पारंपरिक डीप लर्निंग मैकेनिक्स को टेक्स्ट-लेवल ऑप्टिमाइज़ेशन पर कैसे मैप करता है। शोधकर्ताओं ने स्थिरता सुनिश्चित करने के लिए कई परिष्कृत नियंत्रण तंत्र (control mechanisms) लागू किए हैं:

  • Learning Rate और Schedulers: लर्निंग रेट प्रति स्टेप अनुमत संपादन (edits) की संख्या को सीमित करता है, जबकि एक शेड्यूलर अस्थिरता को रोकने के लिए ट्रेनिंग एपोक्स (training epochs) के दौरान संपादन के आकार को कम करता है।
  • Negative Feedback Buffers: अस्वीकृत संपादन एक बफर में संग्रहीत किए जाते हैं, जो नकारात्मक उदाहरणों के रूप में कार्य करते हैं जो ऑप्टिमाइज़र को वही गलतियाँ दोहराने से रोकते हैं।
  • Gradient Smoothing: प्रत्येक एपोक के अंत में एक "स्लो अपडेट" तंत्र स्थिर संपादन दिशाओं को बनाए रखता है, जो इस बात की नकल करता है कि कैसे ग्रेडिएंट स्मूथिंग पारंपरिक न्यूरल नेटवर्क ट्रेनिंग को स्थिर करती है।

कार्यों के इस पृथक्करण (separation of concerns) का अर्थ है कि मुख्य काम ट्रेनिंग के दौरान होता है। इन्फरेंस (inference) के समय, टारगेट मॉडल हल्का बना रहता है, जिसे संदर्भ (context) के रूप में केवल 300 से 2,000 टोकन की एक संक्षिप्त Markdown फ़ाइल प्राप्त होती है।

बेंचमार्क प्रभुत्व और क्रॉस-मॉडल ट्रांसफरैबिलिटी

अनुभवजन्य परिणाम महत्वपूर्ण हैं। खोज, गणित, स्प्रेडशीट और एम्बोडीड एक्शन सहित छह बेंचमार्क पर परीक्षण करने पर, SkillOpt ने लगातार मैन्युअल रूप से लिखे गए कौशल और TextGrad एवं EvoSkill जैसे विशेष तरीकों से बेहतर प्रदर्शन किया। सीधे चैट में GPT-5.5 पर, इस पद्धति ने औसतन लगभग 23 अंकों की प्रदर्शन वृद्धि प्रदान की।

सबसे प्रभावशाली निष्कर्षों में से एक इस पद्धति की हस्तांतरणीयता (transferability) है। GPT-5.5 जैसे बड़े मॉडल के लिए अनुकूलित कौशल को Qwen3.5-4B जैसे बहुत छोटे मॉडलों पर लागू किया जा सकता है, जो प्रभावी रूप से उन्हें वह प्रक्रियात्मक ज्ञान (procedural knowledge) प्रदान करता है जो उनके मूल वेट्स (native weights) में नहीं होता है। इसके अलावा, कौशल पर्यावरण-निरपेक्ष (environment-agnostic) होते हैं; Codex लूप में प्रशिक्षित स्प्रेडशीट कौशल बिना पुन: प्रशिक्षण के Claude Code में सहजता से काम करता है।

उदाहरण के लिए, स्प्रेडशीट कार्यों में, अनुकूलित कौशल पहले वर्कशीट संरचनाओं की जांच करना और फॉर्मूलों पर निर्भर रहने के बजाय सीधे मूल्यांकित मान (evaluated values) लिखना सीखता है। ALFWorld जैसे एम्बोडीड AI कार्यों में, कौशल उद्देश्यों को सही क्रम में पूरा करना सुनिश्चित करने के लिए विज़िट किए गए स्थानों का लॉग बनाए रखना सीखता है।

मुख्य निष्कर्ष

  • टेक्स्ट-आधारित अनुकूलन: SkillOpt Markdown निर्देश फाइलों को प्रशिक्षण योग्य अवस्थाओं (trainable states) के रूप में मानता है, और उन्हें मॉडल वेट्स की तरह अनुकूलित करने के लिए दूसरे LLM का उपयोग करता है।
  • भारी प्रदर्शन लाभ: इस पद्धति ने प्रक्रियात्मक बेंचमार्क पर GPT-5.5 के प्रदर्शन को औसतन 23 अंकों तक बढ़ा दिया, विशेष रूप से टूल-उपयोग और सख्त फॉर्मेटिंग कार्यों में उत्कृष्ट प्रदर्शन किया।
  • कुशल और हस्तांतरणीय: अनुकूलित कौशल संक्षिप्त (2,000 टोकन से कम) होते हैं और उन्हें बड़े मॉडलों से छोटे मॉडलों में या विभिन्न एजेंट वातावरणों के बीच स्थानांतरित किया जा सकता है।