Microsoft Agent Framework: Multimodal Agents
Các tác nhân đa phương thức (Multimodal agents) xử lý nhiều hơn là chỉ văn bản. Chúng xử lý cả hình ảnh và PDF.
Microsoft Agent Framework cho phép bạn truyền nội dung phi văn bản thông qua một lệnh gọi tác nhân (agent call). Bạn có thể sử dụng UriContent cho các tệp được lưu trữ trực tuyến hoặc DataContent cho dữ liệu nhị phân cục bộ.
Framework này có thể biểu diễn nhiều loại tệp khác nhau. Tuy nhiên, khả năng biểu diễn không đồng nghĩa với khả năng xử lý.
Bạn phải kiểm tra ba điều trước khi triển khai:
- Framework có thể biểu diễn nội dung đó không?
- Bộ điều hợp nhà cung cấp (provider adapter) có thể gửi nội dung đó không?
- Mô hình có thể hiểu nội dung đó cho tác vụ cụ thể của bạn không?
Nếu bất kỳ mắt xích nào trong chuỗi này thất bại, sự trừu tượng hóa (abstraction) cũng sẽ thất bại.
Hình ảnh thì đơn giản. Bạn cung cấp các hướng dẫn bằng văn bản và một hình ảnh. Mô hình sẽ đưa ra phản hồi bằng văn bản. Điều này hoạt động tốt cho:
- Đánh giá giao diện người dùng (UI reviews)
- Phân loại ảnh chụp màn hình (Screenshot triage)
- Chuyển soạn các ghi chú viết tay
- Giải thích các biểu đồ đơn giản
PDF thì phức tạp. Một tệp PDF không chỉ là một hình ảnh lớn. Nó chứa văn bản, bảng biểu, đồ họa vector và các lớp (layers).
"Đọc tệp PDF này" có ý nghĩa khác nhau tùy thuộc vào nhà cung cấp. Một số mô hình nhìn thấy văn bản. Những mô hình khác nhìn thấy bố cục trực quan.
Khi nào nên sử dụng đầu vào PDF gốc (native PDF input):
- Tài liệu nhỏ.
- Bố cục trực quan quan trọng đối với câu trả lời.
- Bạn không cần phải tìm kiếm trong tài liệu lặp đi lặp lại.
Khi nào nên sử dụng tiền xử lý thủ công (manual preprocessing):
- Bạn xử lý nhiều tài liệu.
- Bạn cần trích xuất dữ liệu có khả năng lặp lại.
- Bạn cần các trích dẫn hoặc tham chiếu trang ổn định.
- Bạn cần kiểm soát chi phí và độ trễ.
Đối với các hệ thống thực tế (production), đừng đặt "gửi toàn bộ tệp PDF" làm mặc định.
Ứng dụng nên nắm quyền kiểm soát ranh giới tải lên (upload boundary). Ứng dụng nên:
- Xác thực và cấp quyền cho người dùng.
- Xác thực loại nội dung.
- Quét các tệp không an toàn.
- Lưu trữ tệp gốc.
- Tạo các thành phần phái sinh như văn bản đã trích xuất hoặc hình ảnh trang.
Sau đó, chỉ truyền những gì tác nhân cần.
Nếu công việc của bạn yêu cầu độ chính xác cao như OCR hoặc cấu trúc bảng, hãy sử dụng một quy trình xử lý tài liệu (document processing pipeline) trước. Tác nhân nên nằm ở lớp giải thích (explanation layer), chứ không phải lớp trích xuất (extraction layer).
Thay vì cho phép tác nhân truy cập trực tiếp vào các tệp, hãy cung cấp cho nó một công cụ. Một công cụ như "InspectDocument" cho phép tác nhân yêu cầu thông tin mà không cần chạm vào hạ tầng thô (raw infrastructure).
Cuối cùng, hãy ghi nhật ký (log) mọi thứ về quá trình xử lý tệp. Đừng chỉ ghi nhật ký câu trả lời. Hãy ghi lại mô hình, kích thước tệp, số trang và lộ trình tiền xử lý. Nếu không có những thông tin này, việc gỡ lỗi (debugging) một tác vụ thị giác (vision task) thất bại là điều không thể.
Optional learning community: https://t.me/GyaanSetuAi
