Microsoft Agent Framework: Agentes Multimodais

Agentes multimodais lidam com mais do que apenas texto. Eles processam imagens e PDFs.

O Microsoft Agent Framework permite que você passe conteúdo não textual por meio de uma chamada de agente. Você pode usar UriContent para arquivos hospedados ou DataContent para dados binários locais.

O framework pode representar muitos tipos de arquivos. No entanto, representação não é o mesmo que capacidade.

Você deve verificar três coisas antes de colocar em produção:

  • O framework consegue representar o conteúdo?
  • O adaptador do provedor consegue enviar esse conteúdo?
  • O modelo consegue entender o conteúdo para a sua tarefa específica?

Se qualquer parte desta cadeia falhar, a abstração falha.

Imagens são simples. Você fornece instruções de texto e uma imagem. O modelo fornece uma resposta em texto. Isso funciona bem para:

  • Revisões de UI
  • Triagem de capturas de tela
  • Transcrição de notas manuscritas
  • Explicação de