Microsoft Agent Framework: Agentes Multimodais
Agentes multimodais lidam com mais do que apenas texto. Eles processam imagens e PDFs.
O Microsoft Agent Framework permite que você passe conteúdo não textual por meio de uma chamada de agente. Você pode usar UriContent para arquivos hospedados ou DataContent para dados binários locais.
O framework pode representar muitos tipos de arquivos. No entanto, representação não é o mesmo que capacidade.
Você deve verificar três coisas antes de colocar em produção:
- O framework consegue representar o conteúdo?
- O adaptador do provedor consegue enviar esse conteúdo?
- O modelo consegue entender o conteúdo para a sua tarefa específica?
Se qualquer parte desta cadeia falhar, a abstração falha.
Imagens são simples. Você fornece instruções de texto e uma imagem. O modelo fornece uma resposta em texto. Isso funciona bem para:
- Revisões de UI
- Triagem de capturas de tela
- Transcrição de notas manuscritas
- Explicação de
