Các bài báo AI hàng đầu trên Hugging Face - 2026-06-25

AI đang chuyển dịch từ việc trả lời câu hỏi sang thực hiện hành động trong thế giới thực. Các xu hướng hiện tại tập trung vào các tác nhân (agents), hệ thống bộ nhớ và các mô hình đa phương thức (multimodal) thời gian thực.

Dưới đây là 10 bài báo nghiên cứu hàng đầu mà bạn nên biết:

• Qwen-AgentWorld (2606.24597) Hầu hết các tác nhân đều học trong các môi trường mô phỏng hạn chế. Bài báo này sử dụng một mô hình thế giới ngôn ngữ (language world model). Tác nhân sẽ hình dung môi trường thông qua văn bản để học các hành động. Điều này giúp xây dựng các trợ lý AI có khả năng lập kế hoạch dài hạn.

• MemoryData (2606.24775) Các tác nhân cần bộ nhớ dài hạn để ghi nhớ người dùng và các tác vụ trong quá khứ. Bài báo này coi bộ nhớ là một vấn đề quản lý dữ liệu. Nó tạo ra một khung đánh giá (framework) về cách các tác nhân lưu trữ, truy xuất và cập nhật thông tin.

• NatureBench (2606.24530) Các tiêu chuẩn đánh giá (benchmarks) lập trình thường kiểm tra các tác vụ kỹ thuật. NatureBench kiểm tra xem liệu AI có thể hỗ trợ khám phá khoa học hay không. Nó cho thấy các tác nhân hiện tại là những kỹ sư giỏi nhưng chưa phải là những nhà khoa học sáng tạo.

• DomainShuttle (2606.26058) Các mô hình text-to-video thường gặp khó khăn trong việc duy trì sự nhất quán của đối tượng. Bài báo này giúp các mô hình duy trì một người hoặc vật thể cụ thể qua các miền video khác nhau. Điều này rất quan trọng đối với tiếp thị cá nhân hóa.

• MemGUI-Agent (2606.19926) Các tác nhân di động thường thất bại trong các tác vụ kéo dài như đặt vé máy bay. Bài báo này giới thiệu phương pháp quản lý ngữ cảnh chủ động (proactive context management). Nó coi việc quản lý thông tin là một bước chủ động trong chuỗi hành động.

• ShutterMuse (2606.25763) Hầu hết các công cụ ảnh AI chỉ hoạt động sau khi bạn đã chụp ảnh. ShutterMuse cung cấp hướng dẫn thời gian thực về bố cục và cách tạo dáng trong khi bạn đang chụp. Nó đóng vai trò như một trợ lý chụp ảnh (photography copilot).

• Wan-Streamer (2606.25041) Các mô hình đa phương thức thường quá chậm để tương tác trực tiếp. Dự án này xây dựng một mô hình truyền phát (streaming) đầu cuối cho âm thanh, video và văn bản. Nó hướng tới độ trễ thấp trong các cuộc gọi video và các người dẫn chương trình AI.

• Multimodal LLM for Code (2606.15932) Trí tuệ mã nguồn hiện nay đòi hỏi khả năng hiểu hình ảnh, biểu đồ và GUI. Bài khảo sát này vạch ra cách AI có thể phân tích dữ liệu hình ảnh để viết hoặc xác minh mã nguồn.

• AOHP (2606.23449) Hầu hết các tác nhân đều chạy trên nền tảng một hệ điều hành (OS). AOHP xây dựng một hệ điều hành dành riêng cho tác nhân (agent-native operating system) dựa trên Android. Điều này biến AI thành một phần cốt lõi của điện thoại thay vì chỉ là một ứng dụng khác.

• Masked Diffusion Language Model (2606.25331) Hầu hết các mô hình tạo văn bản theo hướng từ trái sang phải. Bài báo này khám phá cơ chế chú ý hai chiều (bidirectional attention) bằng cách sử dụng diffusion. Nó mang lại kết quả cạnh tranh trong các tác vụ toán học và lập trình.

Kỷ nguyên tiếp theo của AI không chỉ là về sự thấu hiểu. Đó còn là về khả năng ghi nhớ, mô phỏng và tương tác trong thời gian thực.

Nguồn: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi