Microsoft-ന്റെ SkillOpt, Markdown ഒപ്റ്റിമൈസേഷനിലൂടെ GPT-5.5-ന്റെ പ്രകടനം വർദ്ധിപ്പിക്കുന്നു

Microsoft-ഉം മൂന്ന് ചൈനീസ് സർവ്വകലാശാലകളിൽ നിന്നുള്ള ഗവേഷകരും ചേർന്ന് SkillOpt അവതരിപ്പിച്ചു. നിർദ്ദേശങ്ങൾ അടങ്ങിയ Markdown ഫയലുകളെ ട്രെയിനബിൾ പാരാമീറ്ററുകളായി (trainable parameters) പരിഗണിക്കുന്ന വിപ്ലവകരമായ ഒരു രീതിയാണിത്. ഈ "സ്കിൽ" (skill) ഡോക്യുമെന്റുകൾ ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിലൂടെ, പ്രൊസീജറൽ ടാസ്ക്കുകളിൽ (procedural tasks) GPT-5.5-ന്റെ പ്രകടനത്തിൽ 23 പോയിന്റോളം വലിയ വർദ്ധനവ് കൈവരിക്കാൻ ഗവേഷകർക്ക് സാധിച്ചു.

ടെക്സ്റ്റിനെ ട്രെയിനബിൾ വെയ്റ്റുകളായി (Trainable Weights) പരിഗണിക്കുന്നു

നിലവിലെ AI രംഗത്ത്, "സ്കില്ലുകൾ" (skills)—അതായത് ഏജന്റുകളെ പ്രത്യേക നടപടിക്രമങ്ങൾ, ടൂൾ ഉപയോഗിക്കേണ്ട നിയമങ്ങൾ, ഔട്ട്‌പുട്ട് ഫോർമാറ്റുകൾ എന്നിവയിലൂടെ നയിക്കുന്ന മോഡുലാർ നിർദ്ദേശങ്ങൾ—വ്യവസായ മാനദണ്ഡമായി മാറിക്കൊണ്ടിരിക്കുകയാണ്. Anthropic പോലുള്ള കമ്പനികൾ Claude-നെ മെച്ചപ്പെടുത്താൻ ഇവ ഉപയോഗിക്കുന്നുണ്ടെങ്കിലും, സാധാരണയായി ഇത്തരം ഡോക്യുമെന്റുകൾ മനുഷ്യർ എഴുതുകയോ അല്ലെങ്കിൽ ഒരു LLM ഒറ്റത്തവണ ഉപയോഗിച്ച് നിർമ്മിക്കുകയോ ആണ് ചെയ്യുന്നത്. ഈ രണ്ട് രീതികളും യഥാർത്ഥമായ ഒരു ഒപ്റ്റിമൈസർ (optimizer) ആയി പ്രവർത്തിക്കുന്നില്ല.

ഒരു ഫ്രോസൺ ടാർഗെറ്റ് മോഡലിന് (frozen target model) പുറമെ നിന്നുള്ള ഒരു ട്രെയിനബിൾ സ്റ്റേറ്റായി (trainable state) ഒരു Markdown ഫയലിനെ പരിഗണിച്ചുകൊണ്ട് SkillOpt ഈ രീതിയെ മാറ്റുന്നു. മോഡലിന്റെ വെയ്റ്റുകൾ (weights) അപ്‌ഡേറ്റ് ചെയ്യുന്നതിന് പകരം, രണ്ടാമതൊരു "ഒപ്റ്റിമൈസർ" ലാംഗ്വേജ് മോഡൽ എക്സിക്യൂഷൻ ലോഗുകൾ വിശകലനം ചെയ്യുകയും ആവർത്തിച്ചുവരുന്ന പിശകുകളും വിജയങ്ങളും തിരിച്ചറിയുകയും ചെയ്യുന്നു. ഈ ഒപ്റ്റിമൈസർ ഒരു Markdown ഡോക്യുമെന്റിൽ കൃത്യമായ മാറ്റങ്ങൾ—ചില ഭാഗങ്ങൾ ചേർക്കുകയോ, നീക്കം ചെയ്യുകയോ, അല്ലെങ്കിൽ മാറ്റം വരുത്തുകയോ ചെയ്യുക—നിർദ്ദേശിക്കുന്നു. ഏറ്റവും പ്രധാനമായി, ഒരു വാലിഡേഷൻ സെറ്റിൽ (validation set) അളക്കാവുന്ന മെച്ചം കാണിച്ചാൽ മാത്രമേ ഈ മാറ്റങ്ങൾ സ്വീകരിക്കപ്പെടുകയുള്ളൂ.

ഗദ്യത്തിൽ പ്രയോഗിക്കുന്ന ഡീപ്പ് ലേണിംഗ് ആശയങ്ങൾ

പരമ്പരാഗത ഡീപ്പ് ലേണിംഗ് മെക്കാനിക്സുകളെ ടെക്സ്റ്റ് തലത്തിലുള്ള ഒപ്റ്റിമൈസേഷനിലേക്ക് എങ്ങനെ മാറ്റിമറിക്കുന്നു എന്നതിലാണ് SkillOpt-ന്റെ മികവ് ഇരിക്കുന്നത്. സ്ഥിരത ഉറപ്പാക്കുന്നതിനായി ഗവേഷകർ സങ്കീർണ്ണമായ നിരവധി കൺട്രോൾ മെക്കാനിസങ്ങൾ നടപ്പിലാക്കിയിട്ടുണ്ട്:

  • Learning Rate and Schedulers: ഒരു സ്റ്റെപ്പിൽ അനുവദനീയമായ എഡിറ്റുകളുടെ എണ്ണത്തെ ഒരു ലേണിംഗ് റേറ്റ് പരിമിതപ്പെടുത്തുന്നു, അതേസമയം അസ്ഥിരത ഒഴിവാക്കാൻ ഒരു ഷെഡ്യൂളർ (scheduler) ട്രെയിനിംഗ് എപ്പോക്കുകൾ (epochs) കടന്നുപോകുമ്പോൾ എഡിറ്റ് സൈസ് കുറച്ചുകൊണ്ടുവരുന്നു.
  • Negative Feedback Buffers: നിരസിക്കപ്പെട്ട എഡിറ്റുകൾ ഒരു ബഫറിൽ സൂക്ഷിക്കുന്നു, ഇത് ഒപ്റ്റിമൈസർ ഒരേ തെറ്റുകൾ ആവർത്തിക്കാതിരിക്കാൻ സഹായിക്കുന്ന നെഗറ്റീവ് ഉദാഹരണങ്ങളായി പ്രവർത്തിക്കുന്നു.
  • Gradient Smoothing: ഓരോ എപ്പോക്കിന്റെയും അവസാനം ഒരു "സ്ലോ അപ്‌ഡേറ്റ്" (slow update) മെക്കാനിസം ഉപയോഗിക്കുന്നത് വഴി സ്ഥിരതയുള്ള എഡിറ്റ് ദിശകൾ നിലനിർത്തുന്നു; ഇത് പരമ്പരാഗത ന്യൂറൽ നെറ്റ്‌വർക്ക് ട്രെയിനിംഗിനെ ഗ്രാഡിയന്റ് സ്മൂത്തിംഗ് (gradient smoothing) എങ്ങനെ സ്ഥിരതയുള്ളതാക്കുന്നു എന്നതിനെ അനുകരിക്കുന്നു.

ഈ വേർതിരിവ് കൊണ്ട് അർത്ഥമാക്കുന്നത് കഠിനമായ ജോലികൾ ട്രെയിനിംഗ് സമയത്ത് നടക്കുന്നു എന്നാണ്. ഇൻഫറൻസ് സമയത്ത് (inference time), ടാർഗെറ്റ് മോഡൽ വളരെ ലഘുവായ രീതിയിൽ നിലനിൽക്കുന്നു; വെറും 300 മുതൽ 2,000 ടോക്കണുകൾ വരെയുള്ള ഒരു കോംപാക്ട് Markdown ഫയൽ ഒരു കോൺടെക്സ്റ്റ് (context) ആയി മാത്രം ഇത് സ്വീകരിക്കുന്നു.

ബെഞ്ച്മാർക്ക് ആധിപത്യവും ക്രോസ്-മോഡൽ ട്രാൻസ്ഫറബിലിറ്റിയും

The empirical results are significant. Testing across six benchmarks—including search, math, spreadsheets, and embodied action—SkillOpt consistently outperformed handwritten skills and specialized methods like TextGrad and EvoSkill. On GPT-5.5 in direct chat, the method yielded an average performance increase of approximately 23 points.

One of the most impactful findings is the method's transferability. A skill optimized for a large model like GPT-5.5 can be applied to much smaller models, such as Qwen3.5-4B, effectively providing them with procedural knowledge they lack in their native weights. Furthermore, skills are environment-agnostic; a spreadsheet skill trained in a Codex loop works seamlessly in Claude Code without retraining.

For example, in spreadsheet tasks, the optimized skill learns to check worksheet structures first and write evaluated values directly rather than relying on formulas. In embodied AI tasks like ALFWorld, the skill learns to maintain a log of visited locations to ensure objectives are met in the correct order.

Key Takeaways

  • Text-Based Optimization: SkillOpt treats Markdown instruction files as trainable states, using a second LLM to optimize them much like model weights.
  • Massive Performance Gains: The method boosted GPT-5.5 by an average of 23 points on procedural benchmarks, specifically excelling in tool-use and strict formatting tasks.
  • Efficient and Transferable: Optimized skills are compact (under 2,000 tokens) and can be transferred from large models to smaller ones or between different agent environments.