Microsoft'un SkillOpt'u, Markdown Optimizasyonu ile GPT 5.5 Performansını Artırıyor

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 hafta önce3min read

In this article

Microsoft'un SkillOpt'u, Markdown Optimizasyonu Yoluyla GPT-5.5 Performansını Artırıyor

Microsoft ve üç Çin üniversitesinden araştırmacılar, öğretici Markdown dosyalarını eğitilebilir parametreler olarak ele alan çığır açıcı bir yöntem olan SkillOpt'u tanıttı. Araştırmacılar, bu "beceri" (skill) belgelerini optimize ederek, GPT-5.5'in prosedürel görevlerde 23 puanlık devasa bir performans artışı yakalamasını sağladı.

Metni Eğitilebilir Ağırlıklar Olarak Ele Almak

Mevcut yapay zeka ortamında, ajanlara belirli prosedürler, araç kullanım kuralları ve çıktı formatları konusunda rehberlik eden modüler talimatlar olan "beceriler" (skills), endüstri standardı haline geliyor. Anthropic gibi şirketler bunları Claude'u geliştirmek için kullansa da, bu belgeler geleneksel olarak insanlar tarafından yazılıyor veya bir LLM tarafından tek seferde oluşturuluyor. Her iki yöntem de gerçek bir optimize edici (optimizer) işlevi görmüyor.

SkillOpt, bir Markdown dosyasını dondurulmuş bir hedef model için harici ve eğitilebilir bir durum olarak ele alarak bu paradigmayı değiştiriyor. Modelin ağırlıklarını güncellemek yerine, ikinci bir "optimizer" dil modeli, tekrarlanan hataları ve başarıları belirlemek için yürütme günlüklerini (execution logs) analiz ediyor. Bu optimizer, bir Markdown belgesi içinde belirli pasajların eklenmesi, silinmesi veya değiştirilmesi gibi cerrahi düzenlemeler öneriyor. En önemlisi, bu değişiklikler yalnızca ayrılmış bir doğrulama setinde (validation set) ölçülebilir iyileşmeler sağlarsa kabul ediliyor.

Derin Öğrenme Kavramlarının Metne Uygulanması

SkillOpt'un dehası, geleneksel derin öğrenme mekaniklerini metin düzeyinde optimizasyona nasıl haritalandırdığında yatıyor. Araştırmacılar, kararlılığı sağlamak için birkaç gelişmiş kontrol mekanizması uyguladılar:

Öğrenme Oranı ve Zamanlayıcılar (Learning Rate and Schedulers): Öğrenme oranı, adım başına izin verilen düzenleme sayısını sınırlar; zamanlayıcı ise dalgalanmayı önlemek için eğitim dönemleri (epochs) boyunca düzenleme boyutunu küçültür.
Negatif Geri Bildirim Tamponları (Negative Feedback Buffers): Reddedilen düzenlemeler bir tamponda saklanarak, optimizer'ın aynı hataları tekrarlamasını önleyen negatif örnekler olarak hizmet eder.
Gradyan Yumuşatma (Gradient Smoothing): Her dönemin sonunda uygulanan bir "yavaş güncelleme" mekanizması, gradyan yumuşatmanın geleneksel sinir ağı eğitimini nasıl stabilize ettiğini taklit ederek kararlı düzenleme yönlerini korur.

Bu görev ayrımı, ağır iş yükünün eğitim sırasında gerçekleştiği anlamına gelir. Çıkarım (inference) sırasında hedef model hafif kalır ve bağlam olarak yalnızca 300 ila 2.000 token'lık kompakt bir Markdown dosyası alır.

Benchmark Hakimiyeti ve Modeller Arası Aktarılabilirlik

The empirical results are significant. Testing across six benchmarks—including search, math, spreadsheets, and embodied action—SkillOpt consistently outperformed handwritten skills and specialized methods like TextGrad and EvoSkill. On GPT-5.5 in direct chat, the method yielded an average performance increase of approximately 23 points.

One of the most impactful findings is the method's transferability. A skill optimized for a large model like GPT-5.5 can be applied to much smaller models, such as Qwen3.5-4B, effectively providing them with procedural knowledge they lack in their native weights. Furthermore, skills are environment-agnostic; a spreadsheet skill trained in a Codex loop works seamlessly in Claude Code without retraining.

For example, in spreadsheet tasks, the optimized skill learns to check worksheet structures first and write evaluated values directly rather than relying on formulas. In embodied AI tasks like ALFWorld, the skill learns to maintain a log of visited locations to ensure objectives are met in the correct order.

Key Takeaways

Text-Based Optimization: SkillOpt treats Markdown instruction files as trainable states, using a second LLM to optimize them much like model weights.
Massive Performance Gains: The method boosted GPT-5.5 by an average of 23 points on procedural benchmarks, specifically excelling in tool-use and strict formatting tasks.
Efficient and Transferable: Optimized skills are compact (under 2,000 tokens) and can be transferred from large models to smaller ones or between different agent environments.