LLMの暴走を防ぐ7つのガードレール

NISTは、重要インフラ向けのAIリスク管理に関する新しいノートを公開しました。

彼らは、AIシステムがテストおよび検証済みの保護機能を備えることを求めています。開発者は、プロンプトインジェクションのような攻撃を防ぐために、これらの保護機能を構築しなければなりません。

セキュリティには、単なる善意以上のものが必要です。プログラムによるガードレールが必要なのです。

AIを保護するための7つの戦略を以下に紹介します:

  • 入力バリデーション ユーザーのテキストがモデルに到達する前に、すべてをチェックします。悪意のあるコードや予期しないHTMLタグを削除します。攻撃者に先手を打つために、これらのルールを頻繁に更新してください。

  • 出力フィルタリング ユーザーがAIの回答を見る前に、内容を検査します。キーワードリストやパターンマッチングを使用して、有害なコンテンツを阻止します。Pydanticのようなツールを使用すると、出力が設定された構造に従うようにできます。

  • 構造化プロンプティング システムプロンプトと明確なデリミタ(区切り文字)を使用します。ユーザーのクエリを ###User Input### のような特定のトークンで囲みます。これにより、モデルが指示とユーザーデータの違いを識別しやすくなります。

  • 敵対的学習 攻撃の例を用いてモデルをトレーニングします。これにより、モデルは有害なプロンプトを認識して拒否することを学びます。また、高品質で特定のデータを用いてモデルをファインチューニングすることで、安全性を向上させることも可能です。

  • リアルタイムモニタリング システムログと使用パターンを常に監視します。異常検知を使用して、不審な挙動をフラグ立てします。これにより、脅威が拡大する前に対応することができます。

  • レッドチーミング 実世界の攻撃をシミュレートするチームを雇います。彼らはハッカーよりも先に、欠陥やプロンプトインジェクションのベクトルを見つけ出します。これは、AI特有の脅威に焦点を当てることで、標準的なテストの枠を超えたものになります。

  • ヒューマン・イン・ザ・ループ 人間がアクションを確認または承認しなければならないチェックポイントを構築します。これは、リスクの高いタスクにおいて不可欠です。ミスが大きなコストにつながる場合に、責任の所在を明確にします。

ガードレールはもはやオプションではありません。それはコアとなるエンジニアリング要件です。

出典: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

オプションの学習コミュニティ: https://t.me/GyaanSetuAi