エージェンティックAIにおけるオブザーバビリティ

従来のマイクロサービスでは、オブザーバビリティは確立されています。トレースは経路を示し、メトリクスはレイテンシを示し、ログは経緯を物語ります。

エージェンティックAIはこのモデルを打破します。

ユーザーの質問一つが、ガードレール、セッションの読み取り、複数のLLM呼び出し、ウェブ検索、そして推論ループを誘発することがあります。失敗はしばしば微妙な形で現れます。ツールが遅延したり、コンテキストウィンドウが大きくなりすぎたり、モデルがエラーを返さずに負荷によって性能が低下したりすることがあります。

最近、私はこれらのシステムをどのように観測するかをテストするために、OpenTelemetry NBA Agentのデモを実行しました。信頼性の高いAIエージェントを構築することについて学んだことを以下にまとめます。

エージェント・オブザーバビリティの3つの柱

トレースはユニットテストよりも価値があります。 同じプロンプトでも、実行ごとに異なる回答が得られる可能性があるからです。単に最終的なテキストを見るだけでなく、エージェントが辿った経路を確認する必要があります。

意図とアクションを相関させます。 天気予報なら一言の回答で十分ですが、金融アドバイスでは不十分です。ガードレールの判断やツールの使用を、ユーザーの意図と結びつける必要があります。

早めにベースラインを確立してください。 モデルのアップデートやAPIの変更は挙動を変化させます。デプロイ前にメトリクスを取得しておくことで、状況が改善したのか悪化したのかを判断できます。

測定すべきもの

単にモデルの呼び出しを監視するだけでは不十分です。エコシステム全体にインストルメンテーションを施す必要があります。

1. モデルレイヤー

オペレーション名、プロバイダーの詳細、およびトークン使用量を追跡します。実行時間と終了理由(finish reasons)を監視します。

2. ツールとMCPサーバー

ツールをマイクロサービスのように扱います。レイテンシ、成功率、および引数を追跡します。エージェントの動作が遅い場合、その原因はLLMではなく、外部APIの遅延であることが多いです。

3. ガードレール

ガードレールがどのトピックで、どの程度の頻度で作動するかを測定します。これは、安全性レイヤーにかかるコストを経営層に説明する際の根拠となります。

4. メモリとセッション

コンテキストの肥大化に注意してください。ターンごとの入力トークン数が増加すると、コストが急騰する可能性があります。

ダッシュボード向けの主要メトリクス

レイテンシ: Time to First Token (TTFT) およびエンドツーエンドのターンレイテンシ。 • コスト: 総トークン数およびセッションあたりの推定支出。 • 信頼性: スパンの種類(LLM vs ツール vs HTTP)ごとのエラー率。 • 挙動: エージェントのループの深さとツールの呼び出し頻度。

エージェンティックAIは、プランナーが確率論的な分散システムです。エージェントのループ全体が見えていなければ、本番環境で運用することはできません。

Source: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

Optional learning community: https://t.me/GyaanSetuAi