Microsoft Agent Framework: Agentes Multimodales

Los agentes multimodales manejan más que solo texto. Procesan imágenes y PDFs.

El Microsoft Agent Framework le permite pasar contenido que no sea texto a través de una llamada de agente. Puede usar UriContent para archivos alojados o DataContent para datos binarios locales.

El framework puede representar muchos tipos de archivos. Sin embargo, la representación no es lo mismo que la capacidad.

Debe verificar tres cosas antes de realizar el lanzamiento:

  • ¿Puede el framework representar el contenido?
  • ¿Puede el adaptador del proveedor enviar ese contenido?
  • ¿Puede el modelo entender el contenido para su tarea específica?

Si alguna parte de esta cadena falla, la abstracción falla.

Las imágenes son sencillas. Usted proporciona instrucciones de texto y una imagen. El modelo proporciona una respuesta de texto. Esto funciona bien para:

  • Revisiones de la interfaz de usuario (UI)
  • Triaje de capturas de pantalla
  • Transcribir notas manuscritas
  • Explicar gráficos sencillos

Los PDFs son complejos. Un PDF no es solo una imagen grande. Contiene texto, tablas, gráficos vectoriales y capas.

"Lee este PDF" significa cosas diferentes dependiendo del proveedor. Algunos modelos ven el texto. Otros ven el diseño visual.

Cuándo usar la entrada de PDF nativa:

  • El documento es pequeño.
  • El diseño visual es importante para la respuesta.
  • No necesita buscar en el documento repetidamente.

Cuándo usar el preprocesamiento manual:

  • Procesa muchos documentos.
  • Necesita una extracción repetible.
  • Necesita citas estables o referencias de página.
  • Necesita controlar los costos y la latencia.

Para sistemas de producción, no establezca "enviar todo el PDF" como su opción predeterminada.

La aplicación debe gestionar el límite de carga. La aplicación debe:

  • Autenticar y autorizar al usuario.
  • Validar el tipo de contenido.
  • Escanear en busca de archivos inseguros.
  • Almacenar el archivo original.
  • Crear artefactos derivados como texto extraído o imágenes de páginas.

Luego, pase solo lo que el agente necesite.

Si su trabajo requiere una alta precisión, como OCR o estructuras de tablas, utilice primero un pipeline de procesamiento de documentos. El agente debe situarse en la capa de explicación, no en la capa de extracción.

En lugar de darle a un agente acceso directo a los archivos, dele una herramienta. Una herramienta como "InspectDocument" permite que el agente solicite información sin tocar la infraestructura bruta.

Finalmente, registre todo lo relacionado con el procesamiento de archivos. No se limite a registrar la respuesta. Registre el modelo, el tamaño del archivo, el número de páginas y la ruta de preprocesamiento. Sin esto, depurar una tarea de visión fallida es imposible.

Fuente: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi