Hugging Face 上的顶级 AI 论文 2026 06 25

Translated for your language. 阅读原文.

AI-assisted draft.

Hugging Face 上的顶级 AI 论文 - 2026-06-25

AI 正在从回答问题转向在现实世界中采取行动。当前趋势侧重于智能体 (agents)、记忆系统和实时多模态模型。

以下是您应该了解的 10 篇顶级研究论文：

• Qwen-AgentWorld (2606.24597) 大多数智能体在有限的模拟环境中学习。本文使用了一种语言世界模型。智能体通过文本想象环境以学习动作。这有助于构建具有长期规划能力的 AI 助手。

• MemoryData (2606.24775) 智能体需要长期记忆来记住用户和过去的任务。本文将记忆视为一个数据管理问题。它创建了一个框架来评估智能体如何存储、检索和更新信息。

• NatureBench (2606.24530) 代码基准测试通常测试技术任务。NatureBench 测试 AI 是否能支持科学发现。它表明目前的智能体是优秀的工程师，但还不是具有创造力的科学家。

• DomainShuttle (2606.26058) 文生视频模型通常难以保持主体的一致性。本文帮助模型在不同的视频领域中保持特定的人物或物体。这对于个性化营销至关重要。

• MemGUI-Agent (2606.19926) 移动端智能体在执行如订机票等长任务时经常失败。本文引入了主动上下文管理。它将信息管理视为动作链中的一个主动步骤。

• ShutterMuse (2606.25763) 大多数 AI 摄影工具是在你拍照后才起作用。ShutterMuse 在你拍摄时提供构图和姿势的实时指导。它充当了摄影副驾驶 (copilot)。

• Wan-Streamer (2606.25041) 多模态模型通常对于实时交互来说太慢了。该项目构建了一个用于音频、视频和文本的端到端流式模型。其目标是在视频通话和 AI 主播中实现低延迟。

• Multimodal LLM for Code (2606.15932) 代码智能现在需要理解图像、图表和 GUI。这篇综述描绘了 AI 如何通过分析视觉数据来编写或验证代码。

• AOHP (2606.23449) 大多数智能体运行在操作系统之上。AOHP 构建了一个基于 Android 的智能体原生操作系统。这使得 AI 成为手机的核心部分，而不仅仅是另一个应用程序。

• Masked Diffusion Language Model (2606.25331) 大多数模型是从左到右生成文本。本文探索了使用扩散模型 (diffusion) 的双向注意力机制。它在数学和编程任务中取得了具有竞争力的结果。

AI 的下一个时代不仅仅在于理解。它关乎记忆、模拟和实时交互。

Optional learning community: https://t.me/GyaanSetuAi

继续阅读