SkillOpt Microsoft Meningkatkan Prestasi GPT-5.5 Melalui Pengoptimuman Markdown
Microsoft dan penyelidik dari tiga universiti China telah mendedahkan SkillOpt, satu kaedah perintis yang menganggap fail Markdown instruksional sebagai parameter yang boleh dilatih. Dengan mengoptimumkan dokumen "kemahiran" ini, penyelidik tersebut berjaya mencapai lonjakan prestasi sebanyak 23 mata yang besar untuk GPT-5.5 dalam tugasan prosedur.
Menganggap Teks sebagai Pemberat yang Boleh Dilatih
Dalam landskap AI semasa, "kemahiran"—instruksi modular yang membimbing ejen melalui prosedur khusus, peraturan penggunaan alatan, dan format output—sedang menjadi piawaian industri. Walaupun syarikat seperti Anthropic menggunakan ini untuk mempertingkatkan Claude, dokumen-dokumen ini secara tradisinya ditulis oleh manusia atau dijana dalam satu fasa oleh LLM. Kedua-dua kaedah tersebut tidak berfungsi sebagai pengoptimum yang sebenar.
SkillOpt mengubah paradigma ini dengan menganggap fail Markdown sebagai keadaan (state) luaran yang boleh dilatih untuk model sasaran yang beku (frozen). Bukannya mengemas kini pemberat model, satu model bahasa "pengoptimum" kedua menganalisis log pelaksanaan untuk mengenal pasti ralat dan kejayaan yang berulang. Pengoptimum ini mencadangkan suntingan tepat—menambah, memadam, atau menggantikan perenggan tertentu—di dalam dokumen Markdown. Yang paling penting, perubahan ini hanya diterima jika ia menghasilkan penambahbaikan yang boleh diukur pada set pengesahan yang diasingkan.
Konsep Pembelajaran Mendalam yang Diterapkan pada Prosa
Kehebatan SkillOpt terletak pada cara ia memetakan mekanik pembelajaran mendalam tradisional kepada pengoptimuman tahap teks. Penyelidik telah melaksanakan beberapa mekanisme kawalan canggih untuk memastikan kestabilan:
- Kadar Pembelajaran dan Penjadual (Learning Rate and Schedulers): Kadar pembelajaran mengehadkan jumlah suntingan yang dibenarkan bagi setiap langkah, manakala penjadual mengecilkan saiz suntingan merentasi zaman (epochs) latihan untuk mengelakkan ketidaktentuan (volatility).
- Penimbal Maklum Balas Negatif (Negative Feedback Buffers): Suntingan yang ditolak disimpan dalam penimbal, berfungsi sebagai contoh negatif yang menghalang pengoptimum daripada mengulangi kesilapan yang sama.
- Penghalusan Gradien (Gradient Smoothing): Mekanisme "kemas kini perlahan" pada akhir setiap zaman (epoch) mengekalkan arah suntingan yang stabil, meniru cara penghalusan gradien menstabilkan latihan rangkaian neural tradisional.
Pengasingan tugas ini bermakna kerja berat berlaku semasa latihan. Semasa masa inferens, model sasaran kekal ringan, hanya menerima fail Markdown ringkas sebanyak 300 hingga 2,000 token sebagai konteks.
Dominasi Penanda Aras dan Kebolehpindahan Merentas Model
Keputusan empirikal adalah signifikan. Melalui ujian merentasi enam penanda aras—termasuk carian, matematik, hamparan, dan tindakan berwujud—SkillOpt secara konsisten mengatasi kemahiran yang ditulis secara manual dan kaedah khusus seperti TextGrad dan EvoSkill. Pada GPT-5.5 dalam sembang terus, kaedah ini menghasilkan peningkatan prestasi purata sebanyak kira-kira 23 mata.
Salah satu penemuan yang paling berimpak adalah kebolehpindahan kaedah tersebut. Kemahiran yang dioptimumkan untuk model besar seperti GPT-5.5 boleh digunakan pada model yang jauh lebih kecil, seperti Qwen3.5-4B, yang secara berkesan membekalkan pengetahuan prosedur yang tidak terdapat dalam pemberat asal mereka. Tambahan pula, kemahiran ini bersifat agnostik persekitaran; kemahiran hamparan yang dilatih dalam gelung Codex berfungsi dengan lancar dalam Claude Code tanpa perlu latihan semula.
Sebagai contoh, dalam tugasan hamparan, kemahiran yang dioptimumkan belajar untuk menyemak struktur helaian kerja terlebih dahulu dan menulis nilai yang telah dinilai secara terus berbanding bergantung pada formula. Dalam tugasan AI berwujud seperti ALFWorld, kemahiran tersebut belajar untuk mengekalkan log lokasi yang telah dilawati bagi memastikan objektif dicapai mengikut urutan yang betul.
Rumusan Utama
- Pengoptimuman Berasaskan Teks: SkillOpt menganggap fail arahan Markdown sebagai keadaan yang boleh dilatih, menggunakan LLM kedua untuk mengoptimumkannya sama seperti pemberat model.
- Peningkatan Prestasi Besar-besaran: Kaedah ini meningkatkan GPT-5.5 sebanyak purata 23 mata pada penanda aras prosedur, terutamanya cemerlang dalam penggunaan alatan dan tugasan pemformatan yang ketat.
- Efisien dan Boleh Dipindah: Kemahiran yang dioptimumkan adalah padat (di bawah 2,000 token) dan boleh dipindahkan daripada model besar ke model yang lebih kecil atau antara persekitaran ejen yang berbeza.