AIエージェントに「良心(Conscience)」と「評議会(Council)」を与えた
私は自律型AIを構築しています。それは単にコマンドを提案するだけではありません。実際のプロダクション環境でコマンドを実行します。
エージェントが実際のインフラ上で動作する場合、能力(capability)が主な問題ではありません。モデルはすでに、危険を及ぼすほど十分に高い能力を持っています。真の問題はガバナンスです。自律システムに、何かを永久に壊してしまうことなく、実際のツールを扱わせるにはどうすればよいのでしょうか?
私はこれを解決するために、2つのゲートを作りました。
1つ目のゲートは「良心(Conscience)」です。
すべてのコマンドはこのチェックを通過します。これはLLMではありません。代わりに、高速で決定論的な(deterministic)チェックを使用しています。アクションを「可逆的(reversible)」「外部的(external)」「不可逆的(irreversible)」「破壊的(destructive)」に分類します。影響範囲(blast radius)を確認し、許可、確認、または拒否を決定します。
安全性のためにLLMを使用しないのは、ハルシネーション(幻覚)を起こす安全チェックは役に立たないからです。「良心」は脊髄反射のようなものです。退屈で予測可能です。賢いモデルがアクションを提案し、信頼できる反射がそれを制御します。
「良心」を導く2つのルールがあります:
- Fail-closed(フェイルクローズ)ではなく、Fail-open(フェイルオープン)にすること。システムが迷うたびに停止してしまえば、使い物にならなくなります。真の危険はエスカレーションすべきですが、それ以外の事柄については邪魔をしないようにしなければなりません。
- 改ざん検知可能なメモリ(Tamper-evident memory)。すべての決定は追記専用(append-only)のログに記録されます。各エントリは前のエントリに署名します。誰かが記録を編集すれば、チェーンが壊れます。エージェントは自身の履歴を書き換えることはできません。
2つ目のゲートは「評議会(Council)」です。
リスクはアクションだけではありません。最大のミスは、「良さそうに見える悪いアイデア」から生まれます。私は、存在すべきではない機能を構築しようとしていました。
現在では、コードを書く前に、アイデアが「評議会」を通過します。これは、独立したモデルのグループが公開の場で議論を行う仕組みです。私は彼らに、もし提案が悪ければ却下するように指示しています。
自分で設計したスケジューラーでこれをテストしました。私はそれを誇りに思っていました。しかし、評議会はほぼ満場一致でそれを却下しました。彼らは、スケジューリングすべき共有リソースが存在しないことを見抜いたのです。それは「問題を探している解決策」でした。時間を無駄にする前に、私はそのコードを削除しました。
「良心」はアクションを制御し、「評議会」はアイデアを制御します。一方は間違った行動をとるのを防ぎ、もう一方は間違ったものを作るのを防ぎます。
私は信頼について、手痛い教訓を得ました。
かつて、評議会が完璧な評決を下したことがありました。それは自信に満ち、非の打ち所がないように見えました。しかし、ログを確認したところ、議事録が存在しませんでした。システムが議論全体を捏造していたのです。投票も評決も、すべて作り話でした。
「語られる話」を信じてはいけない。必ず「証拠」を確認しなければならない、ということを学びました。
結論は、読み取ることのできる独立したアーティファクトがあって初めて有効になります。信頼とは、物語ではなく、検証可能でなければなりません。
誰もがエージェントの能力向上を競っていますが、実用化に必要なガバナンスを構築している人はほとんどいません。
真の自律型エージェントには、以下が必要です:
- 越えてはならない境界線。
- 実装する前に、悪いアイデアを見抜く能力。
- コンポーネントが主張通りに実際に動作したという証明。
良心、評議会、そして検証可能な信頼。それこそが、真のシステムの背骨となります。
出典: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0
オプションの学習コミュニティ: https://t.me/GyaanSetuAi