Microsoft च्या SkillOpt मुळे Markdown ऑप्टिमायझेशनद्वारे GPT-5.5 च्या कामगिरीत वाढ

Microsoft आणि तीन चिनी विद्यापीठांमधील संशोधकांनी SkillOpt सादर केले आहे, ही एक क्रांतिकारी पद्धत आहे जी सूचनात्मक Markdown फाइल्सना 'ट्रेनेबल पॅरामीटर्स' (trainable parameters) म्हणून हाताळते. या "skill" दस्तऐवजांचे ऑप्टिमायझेशन करून, संशोधकांनी procedural tasks मध्ये GPT-5.5 च्या कामगिरीमध्ये २३ अंकांची मोठी वाढ साध्य केली आहे.

मजकुराला 'ट्रेनेबल वेट्स' (Trainable Weights) म्हणून हाताळणे

सध्याच्या AI क्षेत्रात, "skills"—म्हणजेच विशिष्ट कार्यपद्धती, टूल-वापरण्याचे नियम आणि आउटपुट फॉरमॅट्सद्वारे एजंट्सना मार्गदर्शन करणाऱ्या मॉड्युलर सूचना—हे उद्योगाचे मानक बनत आहेत. Anthropic सारख्या कंपन्या Claude ला अधिक सक्षम करण्यासाठी यांचा वापर करतात, परंतु हे दस्तऐवज पारंपारिकपणे मानवांद्वारे लिहिले जातात किंवा LLM द्वारे एकाच वेळी तयार केले जातात. यापैकी कोणतीही पद्धत खऱ्या अर्थाने 'ऑप्टिमायझर' म्हणून काम करत नाही.

SkillOpt या प्रतिमानामध्ये (paradigm) बदल घडवून आणते; हे एका 'फ्रोजन टार्गेट मॉडेल'साठी (frozen target model) Markdown फाईलला बाह्य, ट्रेनेबल स्टेट (trainable state) म्हणून हाताळते. मॉडेलचे वेट्स अपडेट करण्याऐवजी, दुसरे एक "optimizer" लँग्वेज मॉडेल, वारंवार होणाऱ्या चुका आणि यश ओळखण्यासाठी एक्झिक्यूशन लॉग्सचे विश्लेषण करते. हा ऑप्टिमायझर Markdown दस्तऐवजात विशिष्ट परिच्छेद जोडणे, हटवणे किंवा बदलणे यांसारखे अचूक बदल (surgical edits) सुचवतो. महत्त्वाचे म्हणजे, हे बदल केवळ तेव्हाच स्वीकारले जातात जेव्हा ते व्हॅलिडेशन सेटवर मोजण्यायोग्य सुधारणा घडवून आणतात.

गद्य (Prose) मध्ये लागू केलेले डीप लर्निंग संकल्पना

SkillOpt ची खासियत अशी आहे की ती पारंपारिक डीप लर्निंग मेकॅनिक्सला टेक्स्ट-लेव्हल ऑप्टिमायझेशनशी जोडते. स्थिरता सुनिश्चित करण्यासाठी संशोधकांनी अनेक प्रगत नियंत्रण यंत्रणा (control mechanisms) लागू केल्या आहेत:

  • Learning Rate आणि Schedulers: लर्निंग रेट प्रत्येक स्टेपमध्ये होणाऱ्या बदलांच्या संख्येवर मर्यादा घालतो, तर शेड्युलर अस्थिरता टाळण्यासाठी ट्रेनिंग इपॉक्स (epochs) दरम्यान बदलांचा आकार कमी करत जातो.
  • Negative Feedback Buffers: नाकारलेले बदल एका बफरमध्ये साठवले जातात, जे नकारात्मक उदाहरणांच्या (negative examples) रूपात काम करतात आणि ऑप्टिमायझरला त्याच चुका पुन्हा करणे टाळण्यास मदत करतात.
  • Gradient Smoothing: प्रत्येक इपॉकच्या शेवटी असलेली "slow update" यंत्रणा स्थिर बदलांची दिशा कायम ठेवते, जे पारंपारिक न्यूरल नेटवर्क ट्रेनिंगमध्ये ग्रेडियंट स्मूथिंग (gradient smoothing) कशा प्रकारे स्थिरता आणते, त्याचे अनुकरण करते.

या कामांच्या विभाजनामुळे (separation of concerns) मुख्य प्रक्रिया ट्रेनिंग दरम्यान पूर्ण होते. इन्फरन्स (inference) वेळी, टार्गेट मॉडेल हलके (lightweight) राहते आणि संदर्भ म्हणून केवळ ३०० ते २,००० टोकन्सची एक संक्षिप्त Markdown फाईल प्राप्त करते.

बेंचमार्क वर्चस्व आणि क्रॉस-मॉडेल ट्रान्सफरॅबिलिटी (Cross-Model Transferability)

अनुभवजन्य निकाल महत्त्वपूर्ण आहेत. सर्च, गणित, स्प्रेडशीट्स आणि एम्बॉडीड ॲक्शन (embodied action) यांसह सहा बेंचमार्कवर केलेल्या चाचणीमध्ये, SkillOpt ने हस्तलिखित स्किल्स आणि TextGrad आणि EvoSkill सारख्या विशेष पद्धतींपेक्षा सातत्याने सरस कामगिरी केली. थेट चॅटमध्ये GPT-5.5 वर, या पद्धतीमुळे सरासरी कामगिरीमध्ये सुमारे २३ गुणांची वाढ झाली.

या पद्धतीचा सर्वात प्रभावशाली शोध म्हणजे तिची हस्तांतरणीयता (transferability). GPT-5.5 सारख्या मोठ्या मॉडेलसाठी ऑप्टिमाइझ केलेले स्किल Qwen3.5-4B सारख्या खूप लहान मॉडेल्सना देखील लागू केले जाऊ शकते, ज्यामुळे त्यांना त्यांच्या मूळ वेट्समध्ये (native weights) नसलेले प्रक्रियात्मक ज्ञान (procedural knowledge) प्रभावीपणे मिळते. शिवाय, स्किल्स हे एन्व्हायर्नमेंट-अग्नोस्टिक (environment-agnostic) आहेत; Codex लूपमध्ये प्रशिक्षित केलेले स्प्रेडशीट स्किल पुन्हा प्रशिक्षण न देता Claude Code मध्ये अखंडपणे काम करते.

उदाहरणार्थ, स्प्रेडशीट कामांमध्ये, ऑप्टिमाइझ केलेले स्किल प्रथम वर्कशीटची रचना तपासण्यास आणि सूत्रांवर (formulas) अवलंबून राहण्याऐवजी थेट मूल्ये (evaluated values) लिहिण्यास शिकते. ALFWorld सारख्या एम्बॉडीड AI कामांमध्ये, उद्दिष्टे योग्य क्रमाने पूर्ण होतील याची खात्री करण्यासाठी स्किल भेट दिलेल्या ठिकाणांची नोंद (log) ठेवण्यास शिकते.

मुख्य निष्कर्ष

  • टेक्स्ट-आधारित ऑप्टिमायझेशन: SkillOpt Markdown सूचना फाइल्सना 'ट्रेनेबल स्टेट्स' (trainable states) म्हणून मानते आणि मॉडेल वेट्सप्रमाणेच त्यांना ऑप्टिमाइझ करण्यासाठी दुसऱ्या LLM चा वापर करते.
  • मोठ्या प्रमाणात कामगिरीतील वाढ: या पद्धतीमुळे प्रक्रियात्मक बेंचमार्कवर GPT-5.5 च्या कामगिरीमध्ये सरासरी २३ गुणांची वाढ झाली, विशेषतः टूल-वापर आणि कडक फॉरमॅटिंगच्या कामांमध्ये उत्कृष्ट कामगिरी दिसून आली.
  • कार्यक्षम आणि हस्तांतरणीय: ऑप्टिमाइझ केलेली स्किल्स कॉम्पॅक्ट (२,००० टोकन्सपेक्षा कमी) असतात आणि ती मोठ्या मॉडेल्सकडून लहान मॉडेल्सकडे किंवा वेगवेगळ्या एजंट एन्व्हायर्नमेंट्समध्ये हस्तांतरित केली जाऊ शकतात.