OpenAI、少量の有益なトレーニングがAIの安全性を向上させることを発見
OpenAIの研究者たちは、特定のポジティブな行動に基づいてAIモデルをトレーニングすることで、さまざまな領域において安全性と信頼性が広範囲かつ予期せぬ形で向上することを発見しました。この画期的な成果は、「善い振る舞い」が非常に転移性が高いことを示唆しており、膨大な新しいデータセットを必要とすることなく、モデルの操作に対する耐性を高めることができます。
汎用的な有益な特性の力
OpenAIのアライメント(調整)ページで公開された最近の研究において、研究者たちは、強化学習(RL)中に特定のポジティブな特性を強化することが、未知のシナリオにも一般化できるかどうかを調査しました。広範な安全性トレーニングを行う代わりに、チームは、誠実さ、認識論的な謙虚さ、修正可能性(corrigibility)、推論の透明性、公平性、そして人間の幸福への配慮といった、ターゲットを絞った望ましい行動のセットに焦点を当てました。
これらの特性は、ヘルスケア、教育、科学、法律、エンジニアリングといった、リスクの高い領域における現実的な会話を通じてテストされました。最も驚くべき発見は、通常のRLポストトレーニング・パイプラインに、この「有益な特性」データを少量混ぜるだけで、劇的な結果が得られたことでした。モデルは、欺瞞、追従性(sycophancy)、報酬ハッキング、メンタルヘルスのシナリオといった重大なリスクをカバーする53の独立したベンチマークのうち、44で改善を示しました。
有害な誘導と操作に対する耐性
AIアライメントにおける大きな課題の一つは、「ジェイルブレイク(脱獄)」や有害な誘導です。これは、敵対的なプロンプトによってモデルに安全ガードレールを回避させる行為を指します。OpenAIの研究は、これらの有益な特性を用いてトレーニングされたモデルが、研究者たちが「選択的持続性(selective persistence)」と呼ぶ特性を示すことを明らかにしました。
この現象は、通常のベースラインモデルを不安定にするような敵対的なプロンプトや有害なファインチューニングに対して、モデルが大幅に耐性を持つようになることを意味します。重要なのは、この耐性が有用性を犠牲にして得られるものではないということです。モデルは、役に立つ正当な指示に従う能力を維持したままでした。プレッシャーの下でも核となる価値観を維持しつつ、ユーザーのニーズに対して柔軟であり続けるこの能力は、堅牢で実用的なAIを構築する上での大きな前進となります。
分かれる道:OpenAI vs. Anthropic
これらの調査結果は、業界がAIアライメントにどのように取り組むかにおける、根本的な哲学的な分岐を浮き彫りにしています。OpenAIの現在の軌道は、現実的でドメイン固有のシナリオにおけるRLを通じて強化される、経験的で測定可能な行動特性に大きく依存しています。彼らの成功は、数十もの評価手法にわたる厳格なベンチマーキングを通じて測定されます。
対照的に、Anthropicは「Constitutional AI」を活用しています。この手法は、「Claude constitution」と呼ばれる明示的な文書に依拠しており、これがモデルが自身の行動の背後にある原則を理解するための最上位のガイドとして機能します。Anthropicが、モデルが価値観の背後にある「なぜ(why)」を理解する原則ベースのアプローチに焦点を当てているのに対し、OpenAIは、データ駆動型の行動強化アプローチによって、高いレベルの安全性とドメインを越えた汎用性を達成できることを証明しています。
この研究は、安全性へのより効率的なロードマップを提供するため、より広範なAI分野にとって極めて重要です。もし開発者が、専門的なトレーニングデータの「少量」のみを使用して広範なアライメントを実現できれば、フロンティアモデルの安全性を確保するためのコストと複雑さは大幅に軽減される可能性があります。
主な要点
- ドメインを越えた転移性: ある分野(例:ヘルスケア)における誠実さや公平性といった特定の特性について学習させることで、欺瞞検出のような全く無関係なベンチマークにおけるモデルのパフォーマンスが向上します。
- 選択的な持続性: 有益な特性を用いてトレーニングされたモデルは、敵対的なプロンプトや有害なファインチューニングによる操作が困難になる一方で、ユーザーの役立つ指示に対しては高い応答性を維持します。
- アライメントの効率性: OpenAIは、ターゲットを絞った強化学習データが少量であっても、テストされた53のベンチマークのうち44において安全性を大幅に向上させられることを示しました。