Microsoft ನ SkillOpt, Markdown ಆಪ್ಟಿಮೈಸೇಶನ್ ಮೂಲಕ GPT-5.5 ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ

Microsoft ಮತ್ತು ಮೂರು ಚೀನೀ ವಿಶ್ವವಿದ್ಯಾಲಯಗಳ ಸಂಶೋಧಕರು SkillOpt ಅನ್ನು ಅನಾವರಣಗೊಳಿಸಿದ್ದಾರೆ. ಇದು ಸೂಚನಾತ್ಮಕ Markdown ಫೈಲ್‌ಗಳನ್ನು ತರಬೇತಿಗೊಳಿಸಬಹುದಾದ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳಾಗಿ (trainable parameters) ಪರಿಗಣಿಸುವ ಒಂದು ಕ್ರಾಂತಿಕಾರಿ ವಿಧಾನವಾಗಿದೆ. ಈ "skill" ದಾಖಲೆಗಳನ್ನು ಆಪ್ಟಿಮೈಸ್ ಮಾಡುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ಪ್ರೊಸೀಜರಲ್ ಕಾರ್ಯಗಳಲ್ಲಿ (procedural tasks) GPT-5.5 ನ ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ಬೃಹತ್ 23-ಅಂಕಗಳ ಏರಿಕೆಯನ್ನು ಸಾಧಿಸಿದ್ದಾರೆ.

ಪಠ್ಯವನ್ನು ತರಬೇತಿಗೊಳಿಸಬಹುದಾದ ತೂಕಗಳಾಗಿ (Trainable Weights) ಪರಿಗಣಿಸುವುದು

ಪ್ರಸ್ತುತ AI ಕ್ಷೇತ್ರದಲ್ಲಿ, "skills"—ಅಂದರೆ ಏಜೆಂಟ್‌ಗಳಿಗೆ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯವಿಧಾನಗಳು, ಉಪಕರಣಗಳ ಬಳಕೆಯ ನಿಯಮಗಳು ಮತ್ತು ಔಟ್‌ಪುಟ್ ಫಾರ್ಮ್ಯಾಟ್‌ಗಳ ಮೂಲಕ ಮಾರ್ಗದರ್ಶನ ಮಾಡುವ ಮಾಡ್ಯುಲರ್ ಸೂಚನೆಗಳು—ಉದ್ಯಮದ ಮಾನದಂಡಗಳಾಗುತ್ತಿವೆ. Anthropic ನಂತಹ ಕಂಪನಿಗಳು Claude ಅನ್ನು ಸುಧಾರಿಸಲು ಇವುಗಳನ್ನು ಬಳಸುತ್ತವೆಯಾದರೂ, ಈ ದಾಖಲೆಗಳನ್ನು ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಮನುಷ್ಯರು ಬರೆಯುತ್ತಾರೆ ಅಥವಾ LLM ಮೂಲಕ ಒಂದೇ ಹಂತದಲ್ಲಿ ಸೃಷ್ಟಿಸಲಾಗುತ್ತದೆ. ಈ ಎರಡೂ ವಿಧಾನಗಳು ನಿಜವಾದ ಆಪ್ಟಿಮೈಸರ್ ಆಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ.

SkillOpt ಈ ಮಾದರಿಯನ್ನು ಬದಲಾಯಿಸುತ್ತದೆ; ಇದು Markdown ಫೈಲ್ ಅನ್ನು ಫ್ರೋಜನ್ ಟಾರ್ಗೆಟ್ ಮಾಡೆಲ್‌ಗಾಗಿ (frozen target model) ಬಾಹ್ಯ, ತರಬೇತಿಗೊಳಿಸಬಹುದಾದ ಸ್ಥಿತಿಯಾಗಿ ಪರಿಗಣಿಸುತ್ತದೆ. ಮಾಡೆಲ್‌ನ ತೂಕಗಳನ್ನು (weights) ಅಪ್‌ಡೇಟ್ ಮಾಡುವ ಬದಲಿಗೆ, ಎರಡನೇ "optimizer" ಭಾಷಾ ಮಾದರಿಯು ಪುನರಾವರ್ತಿತ ತಪ್ಪುಗಳು ಮತ್ತು ಯಶಸ್ಸುಗಳನ್ನು ಗುರುತಿಸಲು ಎಕ್ಸಿಕ್ಯೂಷನ್ ಲಾಗ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತದೆ. ಈ ಆಪ್ಟಿಮೈಸರ್ Markdown ದಾಖಲೆಯೊಳಗೆ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳನ್ನು ಸೇರಿಸುವುದು, ಅಳಿಸುವುದು ಅಥವಾ ಬದಲಾಯಿಸುವಂತಹ ನಿಖರವಾದ ತಿದ್ದುಪಡಿಗಳನ್ನು (surgical edits) ಪ್ರಸ್ತಾಪಿಸುತ್ತದೆ. ಮುಖ್ಯವಾಗಿ, ಈ ಬದಲಾವಣೆಗಳು ವ್ಯಾಲಿಡೇಶನ್ ಸೆಟ್‌ನಲ್ಲಿ (validation set) ಅಳೆಯಬಹುದಾದ ಸುಧಾರಣೆಯನ್ನು ನೀಡಿದರೆ ಮಾತ್ರ ಅವುಗಳನ್ನು ಸ್ವೀಕರಿಸಲಾಗುತ್ತದೆ.

ಗದ್ಯಕ್ಕೆ ಅನ್ವಯಿಸಲಾದ ಡೀಪ್ ಲರ್ನಿಂಗ್ ಪರಿಕಲ್ಪನೆಗಳು

SkillOpt ನ ಶ್ರೇಷ್ಠತೆಯು ಸಾಂಪ್ರದಿಕ ಡೀಪ್ ಲರ್ನಿಂಗ್ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಪಠ್ಯ-ಮಟ್ಟದ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗೆ ಹೇಗೆ ಅನ್ವಯಿಸುತ್ತದೆ ಎಂಬುದರಲ್ಲಿದೆ. ಸ್ಥಿರತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಸಂಶೋಧಕರು ಹಲವಾರು ಅತ್ಯಾಧುನಿಕ ನಿಯಂತ್ರಣ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಜಾರಿಗೆ ತಂದಿದ್ದಾರೆ:

  • Learning Rate ಮತ್ತು Schedulers: ಲರ್ನಿಂಗ್ ರೇಟ್ ಪ್ರತಿ ಹಂತದಲ್ಲಿ ಅನುಮತಿಸಲಾದ ತಿದ್ದುಪಡಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತದೆ, ಆದರೆ ಶೆಡ್ಯೂಲರ್ ಅಸ್ಥಿರತೆಯನ್ನು ತಡೆಯಲು ತರಬೇತಿ ಎಪೋಕ್‌ಗಳ (epochs) ಉದ್ದಕ್ಕೂ ತಿದ್ದುಪಡಿ ಗಾತ್ರವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
  • Negative Feedback Buffers: ತಿರಸ್ಕರಿಸಲ್ಪಟ್ಟ ತಿದ್ದುಪಡಿಗಳನ್ನು ಬಫರ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ, ಇದು ಆಪ್ಟಿಮೈಸರ್ ಒಂದೇ ತಪ್ಪುಗಳನ್ನು ಪುನರಾವರ್ತಿಸದಂತೆ ತಡೆಯಲು ನಕಾರಾತ್ಮಕ ಉದಾಹರಣೆಗಳಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.
  • Gradient Smoothing: ಪ್ರತಿ

The empirical results are significant. Testing across six benchmarks—including search, math, spreadsheets, and embodied action—SkillOpt consistently outperformed handwritten skills and specialized methods like TextGrad and EvoSkill. On GPT-5.5 in direct chat, the method yielded an average performance increase of approximately 23 points.

One of the most impactful findings is the method's transferability. A skill optimized for a large model like GPT-5.5 can be applied to much smaller models, such as Qwen3.5-4B, effectively providing them with procedural knowledge they lack in their native weights. Furthermore, skills are environment-agnostic; a spreadsheet skill trained in a Codex loop works seamlessly in Claude Code without retraining.

For example, in spreadsheet tasks, the optimized skill learns to check worksheet structures first and write evaluated values directly rather than relying on formulas. In embodied AI tasks like ALFWorld, the skill learns to maintain a log of visited locations to ensure objectives are met in the correct order.

Key Takeaways

  • Text-Based Optimization: SkillOpt treats Markdown instruction files as trainable states, using a second LLM to optimize them much like model weights.
  • Massive Performance Gains: The method boosted GPT-5.5 by an average of 23 points on procedural benchmarks, specifically excelling in tool-use and strict formatting tasks.
  • Efficient and Transferable: Optimized skills are compact (under 2,000 tokens) and can be transferred from large models to smaller ones or between different agent environments.