米政府の禁止措置を受け、AnthropicがFable 5へのグローバルアクセスを再開

Anthropicは、米政府の命令による2週間の停止措置を経て、同社で最も強力なAIモデルであるFable 5の世界的な展開を正式に再開しました。この禁止措置は、モデルが確立されたセーフティ・ガードレールを回避することを可能にする、ジェイルブレイク(脱獄)の脆弱性に関する重大なセキュリティ上の発見によって引き起こされました。

脆弱性:防御的研究からセキュリティリスクへ

この突然の制限は、Fable 5のセーフティ・プロトコルを回避することに成功したAmazonの研究者によるセキュリティレポートに端を発しています。研究者たちは、このモデルが特定のソフトウェアの脆弱性を特定でき、ある顕著な事例では、それらを悪用するための機能的なコードを生成できることを発見しました。

Anthropicはこの件を、日常的な防御的サイバーセキュリティ業務に関連する「エッジケース(例外的な事例)」であると説明しましたが、悪用の可能性があったため、同社と米政府機関による共同調査が必要となりました。興味深いことに、調査の結果、これらの欠陥を特定する能力はFable 5特有のものではないことが明らかになりました。Claude Opus 4.8、GPT-5.5、Kimi K2.7を含む他のモデルも同様の能力を示していました。Claude Haiku 4.5のようなより小規模なモデルでさえ、テスト中に同様の悪用結果を生み出しました。

新しいセーフティ・クラシファイアの導入と「誤検知」のトレードオフ

この問題に対処するため、Anthropicは、Amazonのレポートで特定された特定の悪用手法を99%以上の精度でブロックするように設計された、改良版のセーフティ・クラシファイア(安全性分類器)を導入しました。ユーザーのリクエストがこの新しい防御レイヤーに抵触した場合、通知が表示され、クエリは自動的に、より制限の強い旧モデルであるClaude Opus 4.8へとリダイレクトされます。

しかし、このセキュリティ強化には機能的なコストが伴います。Anthropicは、新しいクラシファイアが、標準的なコーディングやデバッグ作業中に、無害なリクエストをより頻繁にフラグ立てしてしまう傾向があることを認めました。この「セーフティ・マージン(安全余裕)」は、堅牢性とユーザビリティの間の緊張を生み出しています。これは、危険な出力を防ごうとすると、正当な開発者のクエリに対する「拒否」が増加してしまうという、フロンティアモデルの展開において繰り返し直面する課題です。

業界標準と政府による監視の推進

Fable 5の事案は、形式化された業界全体のセーフティ・スタンダード(安全基準)を求めるAnthropicの動きを加速させました。同社は現在、「Glasswing」プログラムを通じてAmazon、Microsoft、Googleと協力し、ジェイルブレイクの格付けと標準化された対抗策の発動のためのフレームワーク構築に取り組んでいます。これを強化するため、Anthropicは24時間365日体制の専用モニタリングチームを立ち上げ、セキュリティ研究者がサイバー関連のジェイルブレイクを報告することを奨励するための新しいHackerOneプログラムを開始しました。

さらに、Anthropicはすべてのフロンティアモデル開発者に平等に適用される「強力な規制」を提唱しています。政府のパートナーに対してセキュリティに敏感なモデルへのリリース前アクセスを提供し、共同研究のために多大な計算リソースを投入することで、Anthropicは透明性が高く、政府と連携したAI監視への動きにおけるリーダーとしての地位を確立しようとしています。

主なポイント

  • アクセスの再開: Fable 5はClaude.ai、Claude Code、Claude Coworkを通じて再び利用可能になりました。Pro、Max、Teamプランのユーザーは、7月7日までアクセス可能です。
  • 新しい防御レイヤー: Anthropicは、特定された悪用手法の99%をブロックするセーフティ・クラシファイアを実装しましたが、コーディングのワークフローにおいて誤検知が増加する可能性があります。
  • 協調的なセキュリティ: Anthropicは、主要なテック企業や米政府と提携し、フロンティアモデルのジェイルブレイクを監視し、対応するための共通の業界標準を確立しようとしています。