SkillOpt Microsoft Meningkatkan Performa GPT-5.5 melalui Optimasi Markdown
Microsoft dan para peneliti dari tiga universitas di Tiongkok telah meluncurkan SkillOpt, sebuah metode terobosan yang memperlakukan berkas Markdown instruksional sebagai parameter yang dapat dilatih. Dengan mengoptimalkan dokumen "skill" ini, para peneliti berhasil mencapai lonjakan performa sebesar 23 poin yang masif untuk GPT-5.5 pada tugas-tugas prosedural.
Memperlakukan Teks sebagai Bobot yang Dapat Dilatih
Dalam lanskap AI saat ini, "skills"—instruksi modular yang memandu agen melalui prosedur tertentu, aturan penggunaan alat, dan format output—menjadi standar industri. Meskipun perusahaan seperti Anthropic menggunakan ini untuk meningkatkan Claude, dokumen-dokumen ini secara tradisional ditulis oleh manusia atau dihasilkan dalam satu kali proses oleh LLM. Kedua metode tersebut tidak berfungsi sebagai optimizer yang sesungguhnya.
SkillOpt mengubah paradigma ini dengan memperlakukan berkas Markdown sebagai status (state) eksternal yang dapat dilatih untuk model target yang dibekukan (frozen). Alih-alih memperbarui bobot model, model bahasa "optimizer" kedua menganalisis log eksekusi untuk mengidentifikasi kesalahan dan keberhasilan yang berulang. Optimizer ini mengusulkan pengeditan yang presisi—menambah, menghapus, atau mengganti bagian tertentu—di dalam dokumen Markdown. Yang terpenting, perubahan ini hanya diterima jika memberikan peningkatan yang terukur pada set validasi yang disisihkan (held-out validation set).
Konsep Deep Learning yang Diterapkan pada Prosa
Kecemerlangan SkillOpt terletak pada bagaimana ia memetakan mekanisme deep learning tradisional ke dalam optimasi tingkat teks. Para peneliti menerapkan beberapa mekanisme kontrol canggih untuk memastikan stabilitas:
- Learning Rate dan Scheduler: Learning rate membatasi jumlah pengeditan yang diizinkan per langkah, sementara scheduler memperkecil ukuran pengeditan di seluruh epoch pelatihan untuk mencegah volatilitas.
- Negative Feedback Buffers: Pengeditan yang ditolak disimpan dalam buffer, yang berfungsi sebagai contoh negatif untuk mencegah optimizer mengulangi kesalahan yang sama.
- Gradient Smoothing: Mekanisme "slow update" di akhir setiap epoch menjaga arah pengeditan yang stabil, meniru cara gradient smoothing menstabilkan pelatihan jaringan saraf tradisional.
Pemisahan tanggung jawab ini berarti beban kerja berat terjadi selama pelatihan. Pada saat inferensi, model target tetap ringan, hanya menerima berkas Markdown ringkas berisi 300 hingga 2.000 token sebagai konteks.
Dominasi Benchmark dan Transferabilitas Lintas-Model
Hasil empirisnya signifikan. Pengujian di enam tolok ukur—termasuk pencarian, matematika, spreadsheet, dan tindakan terwujud—menunjukkan bahwa SkillOpt secara konsisten mengungguli keterampilan yang ditulis secara manual dan metode khusus seperti TextGrad dan EvoSkill. Pada GPT-5.5 dalam chat langsung, metode ini menghasilkan peningkatan performa rata-rata sekitar 23 poin.
Salah satu temuan yang paling berdampak adalah kemampuan transfer metode tersebut. Keterampilan yang dioptimalkan untuk model besar seperti GPT-5.5 dapat diterapkan pada model yang jauh lebih kecil, seperti Qwen3.5-4B, yang secara efektif memberikan pengetahuan prosedural yang tidak mereka miliki dalam bobot aslinya. Selain itu, keterampilan ini bersifat agnostik terhadap lingkungan; keterampilan spreadsheet yang dilatih dalam loop Codex dapat bekerja dengan mulus di Claude Code tanpa perlu pelatihan ulang.
Sebagai contoh, dalam tugas spreadsheet, keterampilan yang dioptimalkan belajar untuk memeriksa struktur lembar kerja terlebih dahulu dan menulis nilai yang telah dievaluasi secara langsung daripada mengandalkan rumus. Dalam tugas AI terwujud seperti ALFWorld, keterampilan tersebut belajar untuk menyimpan log lokasi yang telah dikunjungi guna memastikan tujuan tercapai dalam urutan yang benar.
Poin-Poin Penting
- Optimasi Berbasis Teks: SkillOpt memperlakukan file instruksi Markdown sebagai status yang dapat dilatih, menggunakan LLM kedua untuk mengoptimalkannya layaknya bobot model.
- Peningkatan Performa Masif: Metode ini meningkatkan GPT-5.5 rata-rata sebanyak 23 poin pada tolok ukur prosedural, terutama unggul dalam penggunaan alat dan tugas pemformatan yang ketat.
- Efisien dan Dapat Ditransfer: Keterampilan yang dioptimalkan bersifat ringkas (di bawah 2.000 token) dan dapat ditransfer dari model besar ke model yang lebih kecil atau di antara lingkungan agen yang berbeda.