Các nhà nghiên cứu Nvidia cho phép robot tự huấn luyện bằng các tác nhân lập trình AI

Nút thắt về việc thu thập dữ liệu thủ công và sự can thiệp liên tục của con người trong lĩnh vực robot cuối cùng cũng đang được giải quyết. Bằng cách tận dụng các tác nhân lập trình AI, các nhà nghiên cứu đã phát triển một hệ thống mà ở đó robot có thể tự viết mã huấn luyện của riêng mình và tinh chỉnh sự khéo léo của chúng trong môi trường thực tế.

Phá vỡ nút thắt thủ công với ENPIRE

Theo truyền thống, việc dạy robot thực hiện các nhiệm vụ phức tạp như cầm nắm khéo léo đòi hỏi các kỹ sư phải thiết lập lại bối cảnh, thu thập bộ dữ liệu và tinh chỉnh các thuật toán một cách thủ công. Quy trình thâm dụng lao động này tạo ra một điểm nghẽn lớn trong việc mở rộng trí tuệ robot. Để giải quyết vấn đề này, các nhà nghiên cứu từ Nvidia, Đại học Carnegie Mellon và UC Berkeley đã giới thiệu ENPIRE, một khung làm việc (framework) giúp chuyển đổi quy trình huấn luyện thành một vòng lặp phản hồi tự duy trì.

Thay vì chờ đợi hướng dẫn từ con người, hệ thống ENPIRE sử dụng các tác nhân lập trình AI để quản lý toàn bộ vòng đời: thiết lập lại không gian làm việc, thực hiện chiến lược chuyển động, đánh giá kết quả và lập tức lặp lại (iterate) mã nguồn để cải thiện hiệu suất. Điều này chuyển đổi lĩnh vực robot từ mô hình "human-in-the-loop" (con người trong vòng lặp) sang "agent-in-the-loop" (tác nhân trong vòng lặp).

Cách các tác nhân lập trình tự trị thúc đẩy sự khéo léo

Khung làm việc ENPIRE hoạt động qua hai giai đoạn riêng biệt. Trong giai đoạn đầu, tác nhân thiết lập một không gian làm việc với sự hướng dẫn tối thiểu từ con người—thường chỉ cần vài phút video cho thấy các nỗ lực thành công và thất bại. Quan trọng là, tác nhân tự viết các hàm phần thưởng (reward functions) của riêng mình. Ví dụ, trong các nhiệm vụ cắm chốt, tác nhân đã phát triển một cơ chế kiểm tra tùy chỉnh kết hợp giữa căn chỉnh hình ảnh, chiều cao của kẹp và lực ước tính để xác định sự thành công.

Trong giai đoạn thứ hai, các tác nhân hoạt động với sự tự trị hoàn toàn. Chúng đọc các bài báo nghiên cứu, đưa ra các giả thuyết và chỉnh sửa mã huấn luyện một cách trực tiếp. Chúng có thể lựa chọn giữa các phương pháp như mô phỏng hành vi (behavior cloning - bắt chước chuyển động của con người) hoặc học tăng cường (reinforcement learning - thử và sai) dựa trên phương pháp nào mang lại các tín hiệu thực tế tốt hơn. Trong quá trình thử nghiệm, các nhà nghiên cứu đã sử dụng các mô hình hiệu suất cao bao gồm Codex (với GPT-5.5), Claude Code (với Opus 4.7) và Kimi Code (với Kimi K2.6), trong đó Codex nổi lên là mô hình có hiệu suất tốt nhất.

Mở rộng quy mô thông qua đội quân robot hỗ trợ Git

Một trong những khía cạnh đổi mới nhất của nghiên cứu này là sự phối hợp của một đội robot gồm tám trạm robot YAM hai tay. Thay vì làm việc biệt lập, các trạm này hoạt động như một nhóm nghiên cứu phân tán. Chúng chia sẻ các phát hiện, các "công thức" thành công và các giả thuyết thất bại bằng cách sử dụng Git, công cụ quản lý phiên bản tiêu chuẩn được sử dụng trong kỹ thuật phần mềm.

Cách tiếp cận dựa trên đội robot này mang lại những lợi ích to lớn về mặt thời gian:

Khoảng cách thực tế: Mô phỏng so với Phần cứng

Bất chấp những đột phá này, nghiên cứu cũng làm nổi bật khoảng cách "sim-to-real". Mặc dù cả ba tác nhân được thử nghiệm đều giải quyết được bài kiểm tra Push-T trong môi trường mô phỏng, nhưng hai trong số ba tác nhân đã thất bại khi chuyển sang phần cứng vật lý do các biến số không thể dự đoán trước như ma sát và động lực học của robot. Tuy nhiên, ENPIRE đã thể hiện hiệu suất vượt trội trong mô phỏng RoboCasa so với các mô hình đã được thiết lập như GR00T.

Khi ngành công nghiệp hướng tới robot đa năng, khả năng máy móc có thể "tự nghiên cứu" thông qua mã nguồn sẽ là chìa khóa để vượt qua các chuyển động được lập trình sẵn hạn hẹp, tiến tới trí tuệ thích ứng thực sự.

Các điểm chính cần lưu ý