Nvidia 研究人员利用 AI 编程智能体实现机器人的自主训练
机器人领域中手动数据采集和持续人工干预的瓶颈问题终于得到了解决。通过利用 AI 编程智能体,研究人员开发出一种系统,使机器人能够自主编写训练代码,并在真实环境中提升其灵巧性。
利用 ENPIRE 打破手动操作的瓶颈
传统上,教机器人完成诸如灵巧抓取(dexterous grasping)之类的复杂任务,需要人类工程师重置场景、收集数据集并手动调整算法。这种劳动密集型过程在扩展机器人智能规模时造成了巨大的阻碍。为了解决这一问题,来自 Nvidia、卡内基梅隆大学(Carnegie Mellon University)和加州大学伯克利分校(UC Berkeley)的研究人员推出了 ENPIRE,这是一个将训练过程转化为自我维持反馈循环的框架。
ENPIRE 系统不再等待人类指令,而是使用 AI 编程智能体来管理整个生命周期:重置工作空间、执行运动策略、评估结果,并立即迭代代码以提高性能。这使机器人技术从“人类在环”(human-in-the-loop)转向了“智能体在环”(agent-in-the-loop)。
自主编程智能体如何提升灵巧性
ENPIRE 框架分为两个不同的阶段。在第一阶段,智能体在极少的人类指导下建立工作空间——通常只需几分钟展示成功和失败尝试的视频。至关重要的是,智能体能够编写自己的奖励函数。例如,在插针任务中,智能体开发了一种结合视觉对齐、夹持器高度和预估力的自定义检查机制,以此来判定任务是否成功。
在第二阶段,智能体完全自主运行。它们阅读研究论文、提出假设并直接编辑训练代码。它们可以根据哪种方法能产生更好的真实世界信号,在行为克隆(behavior cloning,模仿人类动作)或强化学习(reinforcement learning,试错法)等方法之间进行选择。在测试过程中,研究人员使用了包括 Codex (with GPT-5.5)、Claude Code (with Opus 4.7) 和 Kimi Code (with Kimi K2.6) 在内的高性能模型,其中 Codex 表现最为出色。
通过支持 Git 的机器人集群实现规模化
这项研究最创新的方面之一是协调由八个双臂 YAM 机器人工作站组成的集群。这些工作站并非孤立工作,而是作为一个分布式研究团队。它们使用软件工程中标准的版本控制工具 Git 来分享研究发现、成功的“配方”以及失败的假设。
这种基于集群的方法带来了巨大的时间收益:
- Push-T 测试: 从一个智能体扩展到八个智能体,将完成时间从五小时缩短至仅两小时。
- 插销任务: 任务完成时间从 90 多分钟降至约 40 分钟。
- 成功率: 该集群在包括分拣插销和切割扎带在内的挑战性任务中,成功率高达 99%。
现实差距:仿真 vs. 硬件
尽管取得了这些突破,研究仍强调了“仿真到现实”(sim-to-real)的差距。虽然所有三个测试智能体都在仿真中解决了 Push-T 测试,但由于摩擦力和机器人动力学等不可预测变量的影响,其中两个在过渡到物理硬件时失败了。然而,与 GR00T 等现有模型相比,ENPIRE 在 RoboCasa 仿真中表现出了更优越的性能。
随着行业向通用机器人方向发展,机器通过代码进行“自主研究”的能力,将是实现从狭隘的、预设动作向真正的、可适应智能跨越的关键。
核心要点
- 自主迭代: ENPIRE 允许机器人编写自己的奖励函数和训练代码,显著减少了人类工程师重置场景或调整算法的需求。
- 协作学习: 通过使用 Git 分享数据,八个机器人的集群可以共同从彼此的成功和失败中学习,从而大幅缩短训练周期。
- 现实世界的复杂性: 虽然该系统在特定任务上的成功率高达 99%,但与仿真训练相比,物理环境的不可预测性仍然是一个重大挑战。