実際にリリースされるエージェント
エージェントのハイプサイクルには明確な答えがあります。プロダクション環境でエージェントを活用して成功しているチームは、自律的なスウォーム(群れ)を構築しているわけではありません。彼らが構築しているのは、「退屈な」システムです。
私は1ヶ月間、プロダクションで何が機能しているかを観察しました。パターンは明確です。収益を生んだり時間を節約したりするエージェントは、無限ループを持ちません。それらは観測可能(observable)であり、境界(bounded)が定められています。そして、必要に応じて人間の助けを求めます。
これにより、エージェント・プラットフォームの評価方法が変わります。
プロダクションでエージェントを使用しているチームは、以下に依存しています:
- 手動によるプロンプト構築
- 既製品のモデル
- 人間の介入前に10ステップ以内で制限された実行
これこそがエンジニアリングの規律です。
デモでは、完全な自律性を備えた自己修正型エージェントが示されます。しかし、実際にリリースされるエージェントは見た目が異なります。それらは明示的なゲート(制御ポイント)を使用しています。
カスタマーサービス・エージェントは5ステップを処理した後にエスカレーションします。コーディング・エージェントはテストを実行しますが、レビューなしでコードをマージすることはありません。データ・エージェントはクエリを実行する前に承認を求めます。これらは、機能するアーキテクチャ上の選択です。
成功しているエージェントは、狭く、繰り返しの可能な問題を解決します。返品処理、チケットのトリアージ、コンプライアンス問題のフラグ立てなどです。スコープが狭いということは、失敗が予測可能であり、デバッグが容易であることを意味します。
エージェントをリリースする上で最も難しいのは、それらをより賢くすることではありません。それらを可視化し、ガバナンス(統制)を効かせることです。
チームが失敗する原因は、多くの場合以下の通りです:
- エージェントが失敗したときに、何を行ったのかを説明できない
- 不適切な結果をトレースできない
- コストの境界を設定できない
- ツールの承認を強制できない
- 決定プロセスを理解するためにセッションをリプレイできない
これらはインフラストラクチャの問題です。
プラットフォームを選ぶ際は、質問を変えてください。
- スピードについて問うのではなく、すべての決定とトレースを確認できるかどうかを問うてください。
- モデルのサポートについて問うのではなく、複数のランタイムを1か所からガバナンスできるかどうかを問うてください。
- 自律性について問うのではなく、人間のゲートをどれだけ簡単に追加できるかを問うてください。
勝利するインフラストラクチャは、観測性、ガバナンス、そして制限された自律性を提供します。それはコントロールプレーンです。信頼できるエージェントと、午前3時にプロダクション環境を破壊するエージェントを分けるものなのです。
プロダクションチームは、もはやエージェントを構築できるかどうかを問いません。それらをいかに確実に運用するかを問うのです。
「退屈な」インフラストラクチャが勝利します。
Source: https://dev.to/paultwist/the-agents-that-actually-ship-why-boring-beats-autonomous-49li
Optional learning community: https://t.me/GyaanSetuAi
