นักวิจัย Nvidia ช่วยให้หุ่นยนต์สามารถฝึกฝนด้วยตนเองได้โดยใช้ AI Coding Agents
ข้อจำกัดของการเก็บข้อมูลด้วยตนเองและการที่ต้องมีมนุษย์คอยแทรกแซงอยู่ตลอดเวลาในด้านหุ่นยนต์กำลังได้รับการแก้ไขในที่สุด ด้วยการใช้ประโยชน์จาก AI coding agents นักวิจัยได้พัฒนาระบบที่หุ่นยนต์สามารถเขียนโค้ดสำหรับฝึกฝนด้วยตนเองได้อย่างอิสระ และปรับปรุงความคล่องแคล่วในการหยิบจับในสภาพแวดล้อมจริง
ทลายข้อจำกัดของการทำงานด้วยมือด้วย ENPIRE
ตามปกติแล้ว การสอนหุ่นยนต์ให้ทำงานที่ซับซ้อน เช่น การหยิบจับอย่างคล่องแคล่ว จำเป็นต้องมีวิศวกรคอยรีเซ็ตฉาก เก็บชุดข้อมูล และปรับแต่งอัลกอริทึมด้วยตนเอง กระบวนการที่ต้องใช้แรงงานมหาศาลนี้สร้างอุปสรรคสำคัญในการขยายขีดความสามารถของปัญญาประดิษฐ์ในหุ่นยนต์ เพื่อแก้ปัญหานี้ นักวิจัยจาก Nvidia, Carnegie Mellon University และ UC Berkeley จึงได้นำเสนอ ENPIRE ซึ่งเป็นเฟรมเวิร์กที่เปลี่ยนกระบวนการฝึกฝนให้กลายเป็นวงจรการตอบสนองที่เลี้ยงตัวเองได้ (self-sustaining feedback loop)
แทนที่จะรอคำสั่งจากมนุษย์ ระบบ ENPIRE จะใช้ AI coding agents ในการจัดการวงจรชีวิตทั้งหมด ตั้งแต่การรีเซ็ตพื้นที่ทำงาน การดำเนินกลยุทธ์การเคลื่อนที่ การประเมินผลลัพธ์ และการปรับปรุงโค้ดในทันทีเพื่อเพิ่มประสิทธิภาพ สิ่งนี้เปลี่ยนผ่านวงการหุ่นยนต์จาก "human-in-the-loop" ไปสู่ "agent-in-the-loop"
AI Coding Agents ที่ทำงานได้ด้วยตนเองช่วยขับเคลื่อนความคล่องแคล่วได้อย่างไร
เฟรมเวิร์ก ENPIRE ทำงานในสองระยะที่แตกต่างกัน ในระยะแรก เอเจนต์จะสร้างพื้นที่ทำงานโดยใช้คำแนะนำจากมนุษย์เพียงเล็กน้อย ซึ่งมักจะเป็นเพียงวิดีโอไม่กี่นาทีที่แสดงถึงความพยายามที่สำเร็จและล้มเหลว สิ่งสำคัญคือเอเจนต์จะเขียนฟังก์ชันการให้รางวัล (reward functions) ของตนเอง ตัวอย่างเช่น ในระหว่างงานเสียบหมุด เอเจนต์ได้พัฒนาการตรวจสอบแบบกำหนดเองที่รวมเอาการจัดวางด้วยสายตา ความสูงของตัวคีบ และแรงที่ประเมินไว้เข้าด้วยกันเพื่อตัดสินความสำเร็จ
ในระยะที่สอง เอเจนต์จะทำงานด้วยความเป็นอิสระอย่างสมบูรณ์ พวกเขาจะอ่านงานวิจัย ตั้งสมมติฐาน และแก้ไขโค้ดการฝึกฝนโดยตรง พวกเขาสามารถเลือกได้ระหว่างวิธีการอย่าง behavior cloning (การเลียนแบบการเคลื่อนไหวของมนุษย์) หรือ reinforcement learning (การลองผิดลองถูก) โดยขึ้นอยู่กับว่าแนวทางใดให้สัญญาณในโลกความเป็นจริงได้ดีกว่า ในระหว่างการทดสอบ นักวิจัยได้ใช้โมเดลประสิทธิภาพสูง ได้แก่ Codex (พร้อม GPT-5.5), Claude Code (พร้อม Opus 4.7) และ Kimi Code (พร้อม Kimi K2.6) โดยที่ Codex แสดงประสิทธิภาพได้สูงสุด
การขยายขนาดผ่านฝูงหุ่นยนต์ที่รองรับ Git
One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.
This fleet-based approach yields massive temporal gains:
- Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
- Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
- Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.
The Reality Gap: Simulation vs. Hardware
Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.
As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.
Key Takeaways
- Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
- Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
- Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.