AIトレーニングにおいて構造化されたフィードバックが重要な理由

研究者たちは、AIトレーニングにおける単純なスコアからの脱却を図っています。現在は、より豊かなシグナルを活用しています。

『Rethinking Reward Supervision』と題された新しい論文は、なぜこの転換が重要なのかを示しています。ほとんどのトレーニング手法は、データを単一の数値に圧縮してしまいます。単一のスコアは、回答が良いか悪いかは教えてくれますが、その「理由」までは教えてくれません。

現在の手法には限界があります:

  • 教師あり蒸留(Supervised distillation)は、思考の連鎖(chain-of-thought)の例に依存しています。これらはコストがかかり、不完全なことも少なくありません。モデルが欠陥のある説明を模倣してしまうと、誤ったことを学習してしまいます。
  • 強化学習(Reinforcement learning)は報酬を使用します。報酬は単一の数値を与えるため、クレジット割り当て(credit assignment)が困難になります。モデルは結果は分かりますが、どの特定のステップが失敗したのかまでは分かりません。

ルーブリック(Rubrics)はこの問題を解決します。ルーブリックは、単純なスコアと完全な説明の中間に位置するものです。

プロセスは2つの段階で行われます:

  1. システムがタスク固有のルーブリックを作成します。科学分野であれば、単位や仮定のチェックなどを意味します。
  2. 教師モデルがこれらのルーブリックを使用して生徒モデルを導きます。これにより、トークンレベルのガイダンスが可能になります。ルーブリックは、正当化(justification)がどこで弱くなっているのかをモデルに正確に伝えます。

このアプローチには3つの利点があります:

  • より優れたクレジット割り当て。モデルは試行全体を破棄するのではなく、特定の誤りから学習できます。
  • 再利用可能な教師あり学習。一つのルーブリックで、多くの異なる回答を導くことができます。
  • より優れたスケーリング。ルーブリックは、バイナリ(合格・不合格)のラベルよりも、多くのステップを含む複雑なタスクをより適切に扱えます。

この論文は、科学的推論タスクにおいて、この手法がGRPOやOPSDといった既存のモデルを凌駕することを示しています。

教訓は明白です。タスクに構造があるなら、その構造をトレーニングループの中に保持してください。データを早すぎる段階で単一の数値に平坦化してはいけません。

ルーブリック、不確実性に基づくプランニング、あるいはプログラム的な説明のいずれを使用する場合でも、目的は同じです。隠れた振る舞いを明示的なシグナルに変えることです。

推論システムを構築する場合は、ルーブリックを直接エンコードしてください。最終的なスコアだけに頼ってはいけません。

出典: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

オプションの学習コミュニティ: https://t.me/GyaanSetuAi