𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

私は1年をかけて、AIエージェントがどのように失敗するかを研究してきました。

最初は、さまざまな種類のミスをリストアップしているつもりでした。しかし、それは間違いでした。私は同じ失敗を、多角的な側面から見ていただけだったのです。

そしてついに、その現象に名前を付けました。「クロスレイヤー・コヒーレンス（層を越えた整合性）」です。

エージェントには4つのレイヤーがあります：

失敗は、これらのレイヤー間の合意が失われたときに起こります。

エージェントは確信を持って動き続けますが、その構成要素はバラバラになりつつあります。あるレイヤーはあることをしていると考えている一方で、別のレイヤーは別のことをしていると言っている。それらが接する「継ぎ目」を監視するものは何もありません。

これは道徳的な失敗ではありません。機械に道徳はありません。これは構造的な失敗なのです。

これを解決するには、1つ目のモデルをチェックするために2つ目のAIモデルを使うのでは不十分です。より賢いプロンプトも、結局は推測に過ぎません。「雰囲気（vibe check）」で確認することは、エンジニアリングではありません。

チェックは決定論的（deterministic）でなければなりません。ログと固定されたルールから状態を再計算する必要があります。意見ではなく、数学と論理を用いるべきなのです。

具体的な例を挙げます：あるエージェントが返金処理を行います。返金は1回につき$40です。1ウィンドウあたりの上限は$500です。エージェントは12回の返金（計$480）を行い、ウィンドウを閉じます。その後、新しいウィンドウを開始し、さらにもう1回返金を行います。合計は$520になります。

個々のステップはすべて問題ありませんでした。各ウィンドウも上限以下でした。しかし、ウィンドウの境界をまたいだ合計がルールに抵触したのです。ステップごとのチェックではこれを見逃します。ウィンドウごとのチェックでも見逃します。コヒーレンス・チェック（整合性チェック）だけが、これを捉えることができます。

時間の経過や、証跡（receipts）に照らしても、レイヤー間が合意を維持し続けられるシステムを構築しなければなりません。

正直に言いましょう。これはまだ解決されていません。コヒーレンス・チェックの精度は、それを実行するAuthority（権限）の精度に依存します。エージェントが到達できない「信頼の起点（root of trust）」が必要です。それが次の戦いです。

完璧だと言っているわけではありません。あるパターンを定義し、それを「雰囲気」ではなく数学によってテストする方法を示しているのです。

（任意）学習コミュニティ: https://t.me/GyaanSetuAi

Continue reading