Microsoft Agent Framework: Мультимодальные агенты

Мультимодальные агенты работают не только с текстом. Они обрабатывают изображения и PDF-файлы.

Microsoft Agent Framework позволяет передавать нетекстовый контент через вызов агента. Вы можете использовать UriContent для файлов, размещенных в сети, или DataContent для локальных бинарных данных.

Фреймворк может представлять множество типов файлов. Однако возможность представления контента не тождественна возможности его обработки.

Перед внедрением вы должны проверить три вещи:

  • Может ли фреймворк представить этот контент?
  • Может ли адаптер провайдера отправить этот контент?
  • Может ли модель понять контент для вашей конкретной задачи?

Если хотя бы одно звено этой цепи дает сбой, абстракция перестает работать.

Изображения — это просто. Вы предоставляете текстовые инструкции и изображение. Модель выдает текстовый ответ. Это хорошо работает для:

  • Обзоров пользовательского интерфейса (UI)
  • Сортировки скриншотов
  • Транскрибации рукописных заметок
  • Объяснения простых диаграмм

PDF-файлы сложнее. PDF — это не просто большое изображение. Он содержит текст, таблицы, векторную графику и слои.

Команда «Прочитай этот PDF» означает разные вещи в зависимости от провайдера. Одни модели видят текст. Другие — визуальную разметку.

Когда использовать нативный ввод PDF:

  • Документ небольшой.
  • Визуальная разметка важна для ответа.
  • Вам не нужно многократно искать информацию в документе.

Когда использовать предварительную обработку вручную:

  • Вы обрабатываете много документов.
  • Вам нужно повторяемое извлечение данных.
  • Вам нужны стабильные цитаты или ссылки на страницы.
  • Вам нужно контролировать затраты и задержку (latency).

Для продакшн-систем не делайте отправку «всего PDF целиком» вариантом по умолчанию.

Приложение должно контролировать границу загрузки. Приложение должно:

  • Аутентифицировать и авторизовать пользователя.
  • Проверять тип контента.
  • Сканировать файлы на наличие угроз.
  • Сохранять исходный файл.
  • Создавать производные артефакты, такие как извлеченный текст или изображения страниц.

Затем передавайте только то, что необходимо агенту.

Если ваша работа требует высокой точности, например, OCR или распознавания структур таблиц, сначала используйте конвейер обработки документов. Агент должен находиться на уровне объяснения, а не на уровне извлечения данных.

Вместо того чтобы давать агенту прямой доступ к файлам, дайте ему инструмент. Инструмент вроде InspectDocument позволяет агенту запрашивать информацию, не взаимодействуя напрямую с инфраструктурой.

Наконец, логируйте всё, что касается обработки файла. Не ограничивайтесь логированием ответа. Логируйте модель, размер файла, количество страниц и путь предобработки. Без этого отладка неудачной задачи компьютерного зрения будет невозможна.

Источник: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi