Microsoft Agent Framework: Agenci multimodalni

Agenci multimodalni obsługują więcej niż tylko tekst. Przetwarzają obrazy i pliki PDF.

Microsoft Agent Framework pozwala na przekazywanie treści nietekstowych podczas wywołania agenta. Możesz użyć UriContent dla plików hostowanych lub DataContent dla lokalnych danych binarnych.

Framework może reprezentować wiele typów plików. Jednak reprezentacja to nie to samo co możliwości.

Przed wdrożeniem musisz sprawdzić trzy rzeczy:

  • Czy framework może reprezentować tę treść?
  • Czy adapter dostawcy może przesłać tę treść?
  • Czy model rozumie treść w kontekście Twojego konkretnego zadania?

Jeśli jakikolwiek element tego łańcucha zawiedzie, zawiedzie również abstrakcja.

Obrazy są proste. Podajesz instrukcje tekstowe i obraz. Model generuje odpowiedź tekstową. Dobrze sprawdza się to w przypadku:

  • przeglądów interfejsu użytkownika (UI)
  • segregacji zrzutów ekranu (triage)
  • transkrypcji odręcznych notatek
  • wyjaśniania prostych wykresów

Pliki PDF są złożone. PDF to nie tylko duży obraz. Zawiera tekst, tabele, grafikę wektorową i warstwy.

Polecenie „Przeczytaj ten plik PDF” oznacza co innego w zależności od dostawcy. Niektóre modele widzą tekst. Inne widzą układ wizualny.

Kiedy używać natywnego wejścia PDF:

  • Dokument jest mały.
  • Układ wizualny ma znaczenie dla odpowiedzi.
  • Nie musisz wielokrotnie przeszukiwać dokumentu.

Kiedy stosować ręczne przetwarzanie wstępne:

  • Przetwarzasz wiele dokumentów.
  • Potrzebujesz powtarzalnej ekstrakcji danych.
  • Potrzebujesz stabilnych cytowań lub odniesień do stron.
  • Musisz kontrolować koszty i opóźnienia.

W systemach produkcyjnych nie ustawiaj „wysyłania całego pliku PDF” jako domyślnego działania.

Aplikacja powinna kontrolować granicę przesyłania danych. Aplikacja powinna:

  • uwierzytelniać i autoryzować użytkownika.
  • walidować typ zawartości.
  • skanować pliki pod kątem zagrożeń.
  • przechowywać oryginalny plik.
  • tworzyć pochodne artefakty, takie jak wyekstrahowany tekst lub obrazy stron.

Następnie przekaż tylko to, czego potrzebuje agent.

Jeśli Twoja praca wymaga wysokiej precyzji, takiej jak OCR czy struktury tabel, najpierw użyj potoku (pipeline) przetwarzania dokumentów. Agent powinien znajdować się na warstwie wyjaśniania, a nie na warstwie ekstrakcji.

Zamiast dawać agentowi bezpośredni dostęp do plików, daj mu narzędzie. Narzędzie takie jak „InspectDocument” pozwala agentowi prosić o informacje bez bezpośredniego kontaktu z surową infrastrukturą.

Na koniec loguj wszystko, co dotyczy przetwarzania pliku. Nie loguj tylko odpowiedzi. Loguj model, rozmiar pliku, liczbę stron i ścieżkę przetwarzania wstępnego. Bez tego debugowanie nieudanego zadania wizyjnego jest niemożliwe.

Źródło: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi