Nvidia 연구진, AI 코딩 에이전트를 활용한 로봇 자가 학습 구현
로봇 공학에서 수동 데이터 수집과 지속적인 인간의 개입이라는 병목 현상이 마침내 해결되고 있습니다. 연구진은 AI 코딩 에이전트를 활용하여 로봇이 스스로 학습 코드를 작성하고 실제 환경에서 정교한 조작 능력을 개선할 수 있는 시스템을 개발했습니다.
ENPIRE를 통한 수동 작업의 병목 현상 타파
전통적으로 정교한 파지(grasping)와 같은 복잡한 작업을 로봇에게 가르치려면 엔지니어가 직접 장면을 재설정하고, 데이터셋을 수집하며, 알고리즘을 수동으로 조정해야 했습니다. 이러한 노동 집약적인 과정은 로봇 지능을 확장하는 데 있어 거대한 마찰 지점이 됩니다. 이를 해결하기 위해 Nvidia, 카네기 멜론 대학교(Carnegie Mellon University), UC 버클리(UC Berkeley)의 연구진은 학습 과정을 자가 유지되는 피드백 루프로 전환하는 프레임워크인 ENPIRE를 선보였습니다.
ENPIRE 시스템은 인간의 지시를 기다리는 대신 AI 코딩 에이전트를 사용하여 작업 공간 재설정, 이동 전략 실행, 결과 평가, 성능 향상을 위한 즉각적인 코드 반복(iteration) 등 전체 라이프사이클을 관리합니다. 이를 통해 로봇 공학은 '인간 개입형(human-in-the-loop)'에서 '에이전트 개입형(agent-in-the-loop)'으로 진화합니다.
자율 코딩 에이전트가 정교한 조작 능력을 구현하는 방식
ENPIRE 프레임워크는 두 가지 뚜렷한 단계로 작동합니다. 첫 번째 단계에서 에이전트는 성공과 실패 사례를 보여주는 몇 분 분량의 비디오와 같은 최소한의 인간 가이드만을 사용하여 작업 공간을 설정합니다. 결정적으로, 에이전트는 스스로 보상 함수(reward functions)를 작성합니다. 예를 들어, 핀 삽입 작업 중에 에이전트는 시각적 정렬, 그리퍼 높이, 추정된 힘을 결합하여 성공 여부를 판단하는 맞춤형 체크 방식을 개발했습니다.
두 번째 단계에서 에이전트는 완전한 자율성으로 작동합니다. 연구 논문을 읽고, 가설을 세우며, 학습 코드를 직접 수정합니다. 에이전트는 어떤 방식이 실제 환경에서 더 나은 신호를 제공하는지에 따라 행동 복제(behavior cloning, 인간의 움직임을 모방) 또는 강화 학습(reinforcement learning, 시행착오 방식)과 같은 방법 중 하나를 선택할 수 있습니다. 테스트 과정에서 연구진은 Codex(GPT-5.5 포함), Claude Code(Opus 4.7 포함), Kimi Code(Kimi K2.6 포함)와 같은 고성능 모델을 활용했으며, 그중 Codex가 가장 뛰어난 성능을 보였습니다.
Git 기반 로봇 플릿을 통한 확장
이 연구의 가장 혁신적인 측면 중 하나는 8대의 듀얼 암 YAM 로봇 스테이션 함대를 조율한다는 점입니다. 이 스테이션들은 고립되어 작동하는 대신, 분산형 연구 팀처럼 행동합니다. 이들은 소프트웨어 공학에서 표준으로 사용되는 버전 관리 도구인 Git을 사용하여 연구 결과, 성공적인 "레시피", 그리고 실패한 가설을 공유합니다.
이러한 함대 기반 접근 방식은 막대한 시간적 이득을 가져옵니다:
- Push-T 테스트: 에이전트를 1대에서 8대로 확장함으로써 완료 시간을 5시간에서 단 2시간으로 단축했습니다.
- 핀 삽입: 작업 완료 시간이 90분 이상에서 약 40분으로 줄어들었습니다.
- 성공률: 함대는 핀 분류 및 케이블 타이 절단과 같은 까다로운 작업에서 최대 99%의 성공률을 달성했습니다.
현실의 격차: 시뮬레이션 vs 하드웨어
이러한 돌파구에도 불구하고, 이 연구는 "sim-to-real" 격차를 강조합니다. 테스트된 세 에이전트 모두 시뮬레이션에서는 Push-T 테스트를 해결했지만, 마찰 및 로봇 역학과 같은 예측 불가능한 변수로 인해 실제 하드웨어로 전환했을 때 세 대 중 두 대가 실패했습니다. 그러나 ENPIRE는 RoboCasa 시뮬레이션에서 GR00T와 같은 기존 모델보다 우수한 성능을 보여주었습니다.
산업이 범용 로보틱스를 향해 나아감에 따라, 기계가 코드를 통해 "자체 연구"할 수 있는 능력은 좁고 사전에 프로그래밍된 동작을 넘어 진정으로 적응 가능한 지능으로 나아가는 핵심이 될 것입니다.
핵심 요약
- 자율적 반복: ENPIRE는 로봇이 스스로 보상 함수와 학습 코드를 작성할 수 있게 하여, 인간 엔지니어가 장면을 재설정하거나 알고리즘을 미세 조정해야 하는 필요성을 크게 줄여줍니다.
- 협업 학습: Git을 사용하여 데이터를 공유함으로써, 8대의 로봇 함대는 서로의 성공과 실패로부터 집단적으로 학습할 수 있으며, 이를 통해 학습 일정을 획기적으로 단축할 수 있습니다.
- 실제 환경의 복잡성: 시스템이 특정 작업에서 최대 99%의 성공률을 달성하지만, 시뮬레이션 학습과 비교했을 때 물리적 환경의 예측 불가능한 특성은 여전히 큰 과제로 남아 있습니다.