Các mô hình ngôn ngữ có thể nhìn
Các mô hình văn bản thường gặp khó khăn với bố cục hình ảnh. Chúng viết ra các từ ngữ nhưng không hiểu được cách những từ đó hiển thị trên màn hình như thế nào.
Nghiên cứu mới đã thay đổi điều này. Giờ đây, bạn có thể tích hợp các bộ điều khiển hình ảnh vào quá trình tạo văn bản. Điều này cho phép các mô hình có thể "nhìn" trong khi đang viết.
Cách thức hoạt động:
- Mô hình nhận được phản hồi hình ảnh trong suốt quá trình.
- Nó điều chỉnh văn bản để phù hợp với các bố cục cụ thể.
- Nó kết nối ý nghĩa ngôn ngữ với vị trí không gian.
Điều này cải thiện cách AI xử lý dữ liệu có cấu trúc. Nó hỗ trợ thiết kế UI và định dạng tài liệu.
Bạn không còn cần phải tách biệt các mô hình văn bản khỏi các công cụ hình ảnh nữa. Bạn có thể sử dụng một hệ thống duy nhất để quản lý cả hai.
Nguồn: https://dev.to/paperium/language-models-can-see-plugging-visual-controls-in-text-generation-aml
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi