OpenAIがRLを用いてAIの安全性を向上
OpenAIは、AIの安全性を高めるための新しい手法を見つけました。彼らは少量の強化学習(RL)を用いて、モデルに特定の特性を学習させました。これらの特性には、真実性、公平性、誠実さが含まれます。
その結果、53個の安全性ベンチマークのうち、44個でモデルの性能が向上したことが示されました。
この手法が従来と異なる点:
- 文書化された憲法(constitution)ではなく、特定の特性を使用している。
- 不適切なプロンプトによるモデルの操作を困難にする。
- 有害なファインチューニングに対する耐性を持つ。
- 不適切な挙動を抑制しつつ、モデルの有用性を維持する。
OpenAIはこれを「選択的持続性(selective persistence)」と呼んでいます。モデルは有用なタスクに対しては柔軟性を保ちつつ、有害な誘導には抵抗します。
研究者たちは、ヘルスケア、法律、科学などの分野のデータを使用しました。その結果、あるトピックでの学習が他の領域にも役立つことが分かりました。例えば、ヘルスケアデータでの学習は、他の主題においてモデルが欺瞞を回避する能力を向上させました。
これはAnthropicとは異なります。Anthropicは「憲法(constitution)」と呼ばれる文書化されたルールセットを使用していますが、OpenAIはRLを通じて測定可能な行動を利用しています。
この発見は、良好な振る舞いがドメインを越えて波及することを示唆しています。これは、将来的にAI企業がモデルをトレーニングする方法を変える可能性があります。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi