Microsoft Agent Framework: 멀티모달 에이전트

멀티모달 에이전트는 텍스트 이상의 것을 처리합니다. 이미지와 PDF도 처리할 수 있습니다.

Microsoft Agent Framework를 사용하면 에이전트 호출을 통해 비텍스트 콘텐츠를 전달할 수 있습니다. 호스팅된 파일에는 UriContent를, 로컬 바이너리 데이터에는 DataContent를 사용할 수 있습니다.

이 프레임워크는 다양한 파일 형식을 표현할 수 있습니다. 하지만 표현할 수 있다는 것이 곧 해당 기능을 수행할 수 있다는 의미는 아닙니다.

배포하기 전에 다음 세 가지를 반드시 확인해야 합니다:

  • 프레임워크가 해당 콘텐츠를 표현할 수 있는가?
  • 프로바이더 어댑터가 해당 콘텐츠를 전송할 수 있는가?
  • 모델이 특정 작업에 대해 해당 콘텐츠를 이해할 수 있는가?

이 체인의 어느 한 부분이라도 실패하면 추상화도 실패합니다.

이미지는 간단합니다. 텍스트 지침과 이미지를 제공하면 모델이 텍스트 응답을 제공합니다. 이는 다음과 같은 경우에 효과적입니다:

  • UI 리뷰
  • 스크린샷 분류
  • 손글씨 메모 전사
  • 간단한 차트 설명

PDF는 복잡합니다. PDF는 단순히 커다란 이미지가 아닙니다. 텍스트, 표, 벡터 그래픽 및 레이어를 포함하고 있습니다.

"Read this PDF"라는 명령은 프로바이더에 따라 의미가 달라집니다. 어떤 모델은 텍스트를 보고, 어떤 모델은 시각적 레이아웃을 봅니다.

네이티브 PDF 입력을 사용해야 하는 경우:

  • 문서의 크기가 작을 때.
  • 답변을 위해 시각적 레이아웃이 중요할 때.
  • 문서를 반복적으로 검색할 필요가 없을 때.

수동 전처리를 사용해야 하는 경우:

  • 많은 양의 문서를 처리할 때.
  • 반복 가능한 추출이 필요할 때.
  • 안정적인 인용 또는 페이지 참조가 필요할 때.
  • 비용과 지연 시간을 제어해야 할 때.

프로덕션 시스템에서는 "send the whole PDF"를 기본 설정으로 삼지 마십시오.

애플리케이션이 업로드 경계를 관리해야 합니다. 애플리케이션은 다음을 수행해야 합니다:

  • 사용자 인증 및 권한 부여.
  • 콘텐츠 유형 검증.
  • 안전하지 않은 파일 스캔.
  • 원본 파일 저장.
  • 추출된 텍스트나 페이지 이미지와 같은 파생 아티팩트 생성.

그런 다음, 에이전트가 필요한 것만 전달하십시오.

OCR이나 표 구조와 같이 높은 정밀도가 필요한 작업이라면, 먼저 문서 처리 파이프라인을 사용하십시오. 에이전트는 추출 레이어가 아닌 설명 레이어에 위치해야 합니다.

에이전트에게 파일에 대한 직접적인 액세스 권한을 주는 대신, 도구를 제공하십시오. "InspectDocument"와 같은 도구를 사용하면 에이전트가 로우 인프라를 직접 건드리지 않고도 정보를 요청할 수 있습니다.

마지막으로, 파일 처리에 관한 모든 것을 로그로 남기십시오. 단순히 답변만 기록하지 마십시오. 모델, 파일 크기, 페이지 수, 전처리 경로를 모두 기록하십시오. 이것 없이는 실패한 비전 작업을 디버깅하는 것이 불가능합니다.

Source: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Optional learning community: https://t.me/GyaanSetuAi