Microsoft Agent Framework: Мультимодальні агенти
Мультимодальні агенти працюють не лише з текстом. Вони обробляють зображення та PDF-файли.
Microsoft Agent Framework дозволяє передавати нетекстовий контент через виклик агента. Ви можете використовувати UriContent для файлів, що розміщені в мережі, або DataContent для локальних бінарних даних.
Фреймворк може представляти багато типів файлів. Однак представлення не означає наявність можливостей.
Перед релізом ви повинні перевірити три речі:
- Чи може фреймворк представити цей контент?
- Чи може адаптер провайдера надіслати цей контент?
- Чи може модель зрозуміти контент для вашого конкретного завдання?
Якщо будь-яка ланка цього ланцюга виявляється несправною, абстракція не працює.
Зображення — це просто. Ви надаєте текстові інструкції та зображення. Модель надає текстову відповідь. Це добре працює для:
- Огляду UI
- Сортування (triage) скриншотів
- Транскрибування рукописних нотаток
- Пояснення простих діаграм
PDF-файли — це складно. PDF — це не просто велике зображення. Він містить текст, таблиці, векторну графіку та шари.
Фраза «Прочитай цей PDF» означає різні речі залежно від провайдера. Деякі моделі бачать текст. Інші — візуальне розташування елементів.
Коли використовувати нативний вхідний PDF:
- Документ невеликий.
- Візуальне розташування має значення для відповіді.
- Вам не потрібно повторно шукати інформацію в документі.
Коли використовувати ручну попередню обробку:
- Ви обробляєте багато документів.
- Вам потрібне повторюване вилучення даних.
- Вам потрібні стабільні цитати або посилання на сторінки.
- Вам потрібно контролювати витрати та затримку (latency).
Для продуктивних систем не робіть «надсилання всього PDF» параметром за замовчуванням.
Додаток має контролювати межу завантаження. Додаток повинен:
- Автентифікувати та авторизувати користувача.
- Перевіряти тип контенту.
- Сканувати на наявність небезпечних файлів.
- Зберігати оригінальний файл.
- Створювати похідні артефакти, такі як вилучений текст або зображення сторінок.
Потім передавайте лише те, що потрібно агенту.
Якщо ваша робота потребує високої точності, як-от OCR або структура таблиць, спочатку використовуйте конвеєр (pipeline) обробки документів. Агент має працювати на рівні пояснення, а не на рівні вилучення даних.
Замість того, щоб надавати агенту прямий доступ до файлів, надайте йому інструмент. Такий інструмент, як InspectDocument, дозволяє агенту запитувати інформацію, не торкаючись сирої інфраструктури.
Нарешті, логуйте все, що стосується обробки файлу. Не просто логуйте відповідь. Логуйте модель, розмір файлу, кількість сторінок і шлях попередньої обробки. Без цього налагодження невдалого завдання з комп'ютерного зору буде неможливим.
Optional learning community: https://t.me/GyaanSetuAi
