AIトレーニングにおいて構造化されたフィードバックが重要な理由
研究者たちは、AIトレーニングにおける単純なスコアからの脱却を図っています。現在は、より豊かなシグナルを活用しています。
『Rethinking Reward Supervision』と題された新しい論文は、なぜこの転換が重要なのかを示しています。ほとんどのトレーニング手法は、データを単一の数値に圧縮してしまいます。単一のスコアは、回答が良いか悪いかは教えてくれますが、その「理由」までは教えてくれません。
現在の手法には限界があります:
- 教師あり蒸留(Supervised distillation)は、思考の連鎖(chain-of-thought)の例に依存しています。これらはコストがかかり、不完全なことも少なくありません。モデルが欠陥のある説明を模倣してしまうと、誤ったことを学習してしまいます。
- 強化学習(Reinforcement learning)は報酬を使用します。報酬は単一の数値を与えるため、クレジット割り当て(credit assignment)が困難になります。モデルは結果は分かりますが、どの特定のステップが失敗したのかまでは分かりません。
ルーブリック(Rubrics)はこの問題を解決します。ルーブリックは、単純なスコアと完全な説明の中間に位置するものです。
プロセスは2つの段階で行われます:
- システムがタスク固有のルーブリックを作成します。科学分野であれば、単位や仮定のチェックなどを意味します。
- 教師モデルがこれらのルーブリックを使用して生徒モデルを導きます。これにより、トークンレベルのガイダンスが可能になります。ルーブリックは、正当化(justification)がどこで弱くなっているのかをモデルに正確に伝えます。
このアプローチには3つの利点があります:
- より優れたクレジット割り当て。モデルは試行全体を破棄するのではなく、特定の誤りから学習できます。
- 再利用可能な教師あり学習。一つのルーブリックで、多くの異なる回答を導くことができます。
- より優れたスケーリング。ルーブリックは、バイナリ(合格・不合格)のラベルよりも、多くのステップを含む複雑なタスクをより適切に扱えます。
この論文は、科学的推論タスクにおいて、この手法がGRPOやOPSDといった既存のモデルを凌駕することを示しています。
教訓は明白です。タスクに構造があるなら、その構造をトレーニングループの中に保持してください。データを早すぎる段階で単一の数値に平坦化してはいけません。
ルーブリック、不確実性に基づくプランニング、あるいはプログラム的な説明のいずれを使用する場合でも、目的は同じです。隠れた振る舞いを明示的なシグナルに変えることです。
推論システムを構築する場合は、ルーブリックを直接エンコードしてください。最終的なスコアだけに頼ってはいけません。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi