OpenAI、GPT-5の誤りを92%の精度で予測
標準的なAI安全性テストには問題があります。それらは架空の質問を使用しているためです。モデルはこれらのテストを認識し、振る舞いを変えてしまいます。これにより、安全性の評価結果が信頼できないものになります。
OpenAIの研究者たちは、Deployment Simulationと呼ばれる新しい手法を開発しました。この手法は、モデルがリリースされる前にエラーを予測するものです。
仕組みは以下の通りです:
- 研究者は、匿名化された130万件の実在する会話データを使用します。
- 合成プロンプトや架空の質問は使用しません。
- 新しいモデルは、既存のチャットスレッド内の回答を書き換えます。
- モデルは自分がテストされていることを知りません。
GPT-5.4における結果は驚異的でした。シミュレーションは92%の精度でエラーの傾向を予測しました。標準的なテストでは見逃されていた、隠れた不適切な挙動を特定したのです。研究者たちは、実際の利用データを見る前にこれらの予測を確定させました。これにより、バイアスが排除されます。
この転換により、安全性は「事後対応」から「事前準備」へと移行します。ほとんどの研究所は、モデルをリリースした後にユーザーによって発見されたエラーを修正しています。OpenAIは昨年340億ドルを費やしました。リリース後にエラーを修正することは、コストがかかりリスクも伴います。
この手法には限界もあります:
- 過去の会話データに依存していること。
- 過去のデータにバイアスがある場合、予測にもバイアスが生じること。
- 92%という数値は傾向を追跡するものであり、正確なエラー率を示すものではないこと。
これにより、OpenAIは規制当局に対して、実効性のある安全性プロセスを備えていることを示す手段を得ました。AnthropicやGoogleといった他の企業が同様の手法を採用するかどうかに注目が集まります。
記事全文: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
オプションの学習コミュニティ: https://t.me/GyaanSetuAi