Microsoft Agent Framework: Multimodal Agents

Translated for your language. 原文を読む.

AI-assisted draft.

Microsoft Agent Framework: マルチモーダルエージェント

マルチモーダルエージェントは、テキスト以上のものを扱います。画像やPDFも処理できます。

Microsoft Agent Frameworkを使用すると、エージェントの呼び出しを通じて非テキストコンテンツを渡すことができます。ホストされたファイルには UriContent を、ローカルのバイナリデータには DataContent を使用できます。

このフレームワークは多くのファイル形式を表現できます。しかし、「表現できること」と「能力があること」は同じではありません。

リリース前に、次の3つの点を確認する必要があります：

このチェーンのどこか一箇所でも失敗すれば、抽象化は失敗します。

画像はシンプルです。テキストによる指示と画像を提供すれば、モデルがテキストで回答を返します。これは以下のようなケースに適しています：

PDFは複雑です。PDFは単なる大きな画像ではありません。テキスト、テーブル、ベクターグラフィックス、レイヤーが含まれています。

「このPDFを読んで」という指示の意味は、プロバイダーによって異なります。テキストとして認識するモデルもあれば、視覚的なレイアウトとして認識するモデルもあります。

ネイティブのPDF入力を使用すべき場面：

手動のプリプロセッシング（前処理）を使用すべき場面：

本番環境のシステムでは、「PDF全体を送信する」ことをデフォルトにしないでください。

アプリケーションがアップロードの境界を管理すべきです。アプリケーションは以下の役割を担う必要があります：

その上で、エージェントが必要なものだけを渡します。

OCRやテーブル構造のように高い精度が求められる場合は、まずドキュメント処理パイプラインを使用してください。エージェントは「抽出レイヤー」ではなく、「解説レイヤー」に位置づけるべきです。

エージェントにファイルへの直接アクセス権を与えるのではなく、ツールを与えてください。「InspectDocument」のようなツールを使用すれば、エージェントは生のインフラに触れることなく情報を要求できます。

最後に、ファイル処理に関するすべてをログに記録してください。回答だけを記録するのではなく、モデル、ファイルサイズ、ページ数、およびプリプロセッシングのパスを記録してください。これがないと、失敗したビジョンタスクのデバッグは不可能です。

Optional learning community: https://t.me/GyaanSetuAi

続きを読む