Microsoft-இன் SkillOpt, Markdown மேம்படுத்தல் மூலம் GPT-5.5-இன் செயல்திறனை அதிகரிக்கிறது

Microsoft மற்றும் மூன்று சீனப் பல்கலைக்கழகங்களைச் சேர்ந்த ஆராய்ச்சியாளர்கள் SkillOpt-ஐ அறிமுகப்படுத்தியுள்ளனர். இது அறிவுறுத்தல் சார்ந்த Markdown கோப்புகளைப் பயிற்சியளிக்கக்கூடிய அளவுருக்களாக (trainable parameters) கருதும் ஒரு புரட்சிகரமான முறையாகும். இந்த "திறன்" (skill) ஆவணங்களை மேம்படுத்துவதன் மூலம், நடைமுறை சார்ந்த பணிகளில் (procedural tasks) GPT-5.5-இன் செயல்திறனை ஆராய்ச்சியாளர்கள் 23 புள்ளிகள் என்ற மிகப்பெரிய அளவில் உயர்த்தியுள்ளனர்.

உரையை பயிற்சியளிக்கக்கூடிய எடைகளாக (Trainable Weights) கருதுதல்

தற்போதைய AI சூழலில், "திறன்கள்" (skills) — அதாவது முகவர்களை (agents) குறிப்பிட்ட நடைமுறைகள், கருவிப் பயன்பாட்டு விதிகள் மற்றும் வெளியீட்டு வடிவங்கள் மூலம் வழிநடத்தும் தொகுப்பு அறிவுறுத்தல்கள் — தொழில்துறை தரநிலைகளாக மாறி வருகின்றன. Anthropic போன்ற நிறுவனங்கள் Claude-இன் திறனை மேம்படுத்த இவற்றைப் பயன்படுத்தினாலும், இந்த ஆவணங்கள் பாரம்பரியமாக மனிதர்களால் எழுதப்படுகின்றன அல்லது ஒரு LLM மூலம் ஒரே முறையில் உருவாக்கப்படுகின்றன. இந்த இரண்டு முறைகளுமே உண்மையான மேம்படுத்தியாக (optimizer) செயல்படுவதில்லை.

SkillOpt இந்த அணுகுமுறையை மாற்றுகிறது; இது ஒரு Markdown கோப்பை, மாற்றியமைக்கப்படாத (frozen) இலக்கு மாதிரிக்கான (target model) வெளிப்புற, பயிற்சியளிக்கக்கூடிய நிலையாகக் கருதுகிறது. மாதிரியின் எடைகளை (weights) புதுப்பிப்பதற்குப் பதிலாக, இரண்டாவது ஒரு "optimizer" மொழி மாதிரி, மீண்டும் மீண்டும் நிகழும் பிழைகள் மற்றும் வெற்றிகளைக் கண்டறிய செயல்பாட்டுப் பதிவுகளை (execution logs) பகுப்பாய்வு செய்கிறது. இந்த optimizer, ஒரு Markdown ஆவணத்திற்குள் குறிப்பிட்ட பகுதிகளைச் சேர்த்தல், நீக்குதல் அல்லது மாற்றுதல் போன்ற துல்லியமான திருத்தங்களை (surgical edits) முன்மொழிகிறது. மிக முக்கியமாக, இந்த மாற்றங்கள் ஒரு சோதனைத் தொகுப்பில் (validation set) அளவிடக்கூடிய முன்னேற்றத்தைத் தந்தால் மட்டுமே ஏற்றுக்கொள்ளப்படுகின்றன.

உரை வடிவில் பயன்படுத்தப்படும் டீப் லேர்னிங் (Deep Learning) கருத்துக்கள்

பாரம்பரிய டீப் லேர்னிங் வழிமுறைகளை உரை அளவிலான மேம்படுத்தலுடன் (text-level optimization) SkillOpt எவ்வாறு இணைக்கிறது என்பதில்தான் அதன் சிறப்பம்சமே உள்ளது. நிலைத்தன்மையை உறுதிப்படுத்த ஆராய்ச்சியாளர்கள் பல நுணுக்கமான கட்டுப்பாட்டு வழிமுறைகளைச் செயல்படுத்தியுள்ளனர்:

  • Learning Rate மற்றும் Schedulers: ஒரு 'learning rate' ஒவ்வொரு படிவத்திலும் அனுமதிக்கப்படும் திருத்தங்களின் எண்ணிக்கையைக் கட்டுப்படுத்துகிறது; அதே நேரத்தில் ஒரு 'scheduler', ஏற்ற இறக்கங்களைத் தவிர்க்கப் பயிற்சியின் ஒவ்வொரு சுற்றிலும் (epochs) திருத்தத்தின் அளவைக் குறைக்கிறது.
  • Negative Feedback Buffers: நிராகரிக்கப்பட்ட திருத்தங்கள் ஒரு 'buffer'-இல் சேமிக்கப்படுகின்றன. இவை எதிர்மறை உதாரணங்களாகச் செயல்பட்டு, optimizer மீண்டும் அதே தவறுகளைச் செய்வதைத் தடுக்கின்றன.
  • Gradient Smoothing: ஒவ்வொரு சுற்றின் இறுதியிலும் உள்ள ஒரு "மெதுவான புதுப்பித்தல்" (slow update) வழிமுறை, நிலையான திருத்தத் திசைகளைப் பாதுகாக்கிறது. இது பாரம்பரிய நரம்பியல் வலைப்பின்னல் (neural network) பயிற்சியை 'gradient smoothing' எவ்வாறு நிலைப்படுத்துகிறது என்பதைப் போலவே செயல்படுகிறது.

இந்தத் தனிப்பயனாக்கம் (separation of concerns) காரணமாக, கடினமான வேலைகள் பயிற்சியின் போதே நடந்துவிடுகின்றன. பயன்பாட்டு நேரத்தில் (inference time), இலக்கு மாதிரி மிகவும் இலகுவாக இருக்கும்; அது சூழலுக்காக (context) 300 முதல் 2,000 டோக்கன்கள் கொண்ட ஒரு சுருக்கமான Markdown கோப்பைப் பெறுவது மட்டுமே செய்யும்.

பெஞ்ச்மார்க் ஆதிக்கம் மற்றும் மாடல்களுக்கு இடையிலான மாற்றத்திறன் (Cross-Model Transferability)

The empirical results are significant. Testing across six benchmarks—including search, math, spreadsheets, and embodied action—SkillOpt consistently outperformed handwritten skills and specialized methods like TextGrad and EvoSkill. On GPT-5.5 in direct chat, the method yielded an average performance increase of approximately 23 points.

One of the most impactful findings is the method's transferability. A skill optimized for a large model like GPT-5.5 can be applied to much smaller models, such as Qwen3.5-4B, effectively providing them with procedural knowledge they lack in their native weights. Furthermore, skills are environment-agnostic; a spreadsheet skill trained in a Codex loop works seamlessly in Claude Code without retraining.

For example, in spreadsheet tasks, the optimized skill learns to check worksheet structures first and write evaluated values directly rather than relying on formulas. In embodied AI tasks like ALFWorld, the skill learns to maintain a log of visited locations to ensure objectives are met in the correct order.

Key Takeaways

  • Text-Based Optimization: SkillOpt treats Markdown instruction files as trainable states, using a second LLM to optimize them much like model weights.
  • Massive Performance Gains: The method boosted GPT-5.5 by an average of 23 points on procedural benchmarks, specifically excelling in tool-use and strict formatting tasks.
  • Efficient and Transferable: Optimized skills are compact (under 2,000 tokens) and can be transferred from large models to smaller ones or between different agent environments.