MicrosoftのSkillOpt、Markdownの最適化によりGPT 5.5のパフォーマンスを向上

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial3 週間前3分で読めます

MicrosoftのSkillOpt、Markdownの最適化によりGPT-5.5のパフォーマンスを向上

Microsoftと中国の3つの大学の研究者らは、指示用のMarkdownファイルを学習可能なパラメータとして扱う画期的な手法「SkillOpt」を発表しました。これらの「スキル」ドキュメントを最適化することで、研究者らは手続き型タスクにおいてGPT-5.5のパフォーマンスを23ポイントも大幅に向上させることに成功しました。

テキストを学習可能な重みとして扱う

現在のAI分野において、エージェントを特定の手順、ツール使用ルール、出力形式へと導くモジュール式の指示である「スキル」は、業界標準になりつつあります。Anthropicのような企業はこれらを使用してClaudeを強化していますが、従来、これらのドキュメントは人間によって記述されるか、LLMによって一度の生成プロセスで作成されるものでした。どちらの方法も、真のオプティマイザー（最適化器）としては機能していません。

SkillOptはこのパラダイムを、Markdownファイルを凍結されたターゲットモデルに対する外部の学習可能な状態として扱うことで変革します。モデルの重みを更新する代わりに、2つ目の「オプティマイザー」言語モデルが実行ログを分析し、繰り返されるエラーや成功パターンを特定します。このオプティマイザーは、Markdownドキュメント内の特定の箇所を追加、削除、または置換するという、ピンポイントな編集（surgical edits）を提案します。重要なのは、これらの変更がホールドアウト検証セットにおいて測定可能な改善をもたらす場合にのみ、採用されるという点です。

文章に適用されたディープラーニングの概念

SkillOptの素晴らしさは、従来のディープラーニングのメカニズムをテキストレベルの最適化へとマッピングした手法にあります。研究者らは、安定性を確保するためにいくつかの高度な制御メカニズムを実装しました。

学習率とスケジューラー: 学習率はステップごとに許可される編集回数を制限し、スケジューラーはトレーニングのエポックが進むにつれて編集サイズを縮小させることで、変動を抑えます。
ネガティブフィードバック・バッファ: 拒否された編集はバッファに保存され、オプティマイザーが同じ間違いを繰り返さないためのネガティブサンプルとして機能します。
勾配平滑化（Gradient Smoothing）: 各エポックの終了時に「スローアップデート」メカニズムを適用することで、安定した編集の方向性を維持します。これは、勾配平滑化が従来のニューラルネットワークのトレーニングを安定させる仕組みを模倣したものです。

この「関心の分離（separation of concerns）」により、負荷の高い処理はトレーニング中に行われます。推論時には、ターゲットモデルは軽量なままであり、単に300から2,000トークンのコンパクトなMarkdownファイルをコンテキストとして受け取るだけです。

ベンチマークにおける圧倒的優位性とモデル間転移性

実証結果は極めて顕著です。検索、数学、スプレッドシート、身体的アクションを含む6つのベンチマークを用いたテストにおいて、SkillOptは手書きのスキルや、TextGrad、EvoSkillといった特化型の手法を一貫して上回りました。GPT-5.5のダイレクトチャットにおいて、本手法は平均で約23ポイントの性能向上を実現しました。

最も影響力のある発見の一つは、本手法の転移性（transferability）です。GPT-5.5のような大規模モデル向けに最適化されたスキルは、Qwen3.5-4Bのようなはるかに小規模なモデルにも適用可能であり、モデルの元の重みには欠けている手続き的知識を効果的に提供できます。さらに、スキルは環境に依存しません（environment-agnostic）。例えば、Codexループで訓練されたスプレッドシートのスキルは、再学習なしでClaude Codeでもシームレスに動作します。

例えば、スプレッドシートのタスクでは、最適化されたスキルは、まずワークシートの構造を確認し、数式に頼るのではなく評価済みの値を直接書き込むことを学習します。ALFWorldのような身体的AI（embodied AI）タスクでは、スキルは訪問した場所のログを保持し、目的が正しい順序で達成されるように学習します。

主な要点

テキストベースの最適化: SkillOptはMarkdown形式の指示ファイルを訓練可能な状態（trainable states）として扱い、第2のLLMを使用して、モデルの重みと非常によく似た方法でそれらを最適化します。
大幅な性能向上: 本手法は、手続き型ベンチマークにおいてGPT-5.5の性能を平均23ポイント向上させ、特にツール利用や厳格なフォーマットが求められるタスクで優れた成果を上げました。
効率性と転移性: 最適化されたスキルはコンパクト（2,000トークン未満）であり、大規模モデルから小規模モデルへ、あるいは異なるエージェント環境間へと転移させることが可能です。