Các nhà nghiên cứu Nvidia cho phép robot tự huấn luyện bằng các tác nhân lập trình AI
Nút thắt về việc thu thập dữ liệu thủ công và sự can thiệp liên tục của con người trong lĩnh vực robot cuối cùng cũng đang được giải quyết. Bằng cách tận dụng các tác nhân lập trình AI, các nhà nghiên cứu đã phát triển một hệ thống mà ở đó robot có thể tự viết mã huấn luyện của riêng mình và tinh chỉnh sự khéo léo của chúng trong môi trường thực tế.
Phá vỡ nút thắt thủ công với ENPIRE
Theo truyền thống, việc dạy robot thực hiện các nhiệm vụ phức tạp như cầm nắm khéo léo đòi hỏi các kỹ sư phải thiết lập lại bối cảnh, thu thập bộ dữ liệu và tinh chỉnh các thuật toán một cách thủ công. Quy trình thâm dụng lao động này tạo ra một điểm nghẽn lớn trong việc mở rộng trí tuệ robot. Để giải quyết vấn đề này, các nhà nghiên cứu từ Nvidia, Đại học Carnegie Mellon và UC Berkeley đã giới thiệu ENPIRE, một khung làm việc (framework) giúp chuyển đổi quy trình huấn luyện thành một vòng lặp phản hồi tự duy trì.
Thay vì chờ đợi hướng dẫn từ con người, hệ thống ENPIRE sử dụng các tác nhân lập trình AI để quản lý toàn bộ vòng đời: thiết lập lại không gian làm việc, thực hiện chiến lược chuyển động, đánh giá kết quả và lập tức lặp lại (iterate) mã nguồn để cải thiện hiệu suất. Điều này chuyển đổi lĩnh vực robot từ mô hình "human-in-the-loop" (con người trong vòng lặp) sang "agent-in-the-loop" (tác nhân trong vòng lặp).
Cách các tác nhân lập trình tự trị thúc đẩy sự khéo léo
Khung làm việc ENPIRE hoạt động qua hai giai đoạn riêng biệt. Trong giai đoạn đầu, tác nhân thiết lập một không gian làm việc với sự hướng dẫn tối thiểu từ con người—thường chỉ cần vài phút video cho thấy các nỗ lực thành công và thất bại. Quan trọng là, tác nhân tự viết các hàm phần thưởng (reward functions) của riêng mình. Ví dụ, trong các nhiệm vụ cắm chốt, tác nhân đã phát triển một cơ chế kiểm tra tùy chỉnh kết hợp giữa căn chỉnh hình ảnh, chiều cao của kẹp và lực ước tính để xác định sự thành công.
Trong giai đoạn thứ hai, các tác nhân hoạt động với sự tự trị hoàn toàn. Chúng đọc các bài báo nghiên cứu, đưa ra các giả thuyết và chỉnh sửa mã huấn luyện một cách trực tiếp. Chúng có thể lựa chọn giữa các phương pháp như mô phỏng hành vi (behavior cloning - bắt chước chuyển động của con người) hoặc học tăng cường (reinforcement learning - thử và sai) dựa trên phương pháp nào mang lại các tín hiệu thực tế tốt hơn. Trong quá trình thử nghiệm, các nhà nghiên cứu đã sử dụng các mô hình hiệu suất cao bao gồm Codex (với GPT-5.5), Claude Code (với Opus 4.7) và Kimi Code (với Kimi K2.6), trong đó Codex nổi lên là mô hình có hiệu suất tốt nhất.
Mở rộng quy mô thông qua đội quân robot hỗ trợ Git
Một trong những khía cạnh đổi mới nhất của nghiên cứu này là sự phối hợp của một đội robot gồm tám trạm robot YAM hai tay. Thay vì làm việc biệt lập, các trạm này hoạt động như một nhóm nghiên cứu phân tán. Chúng chia sẻ các phát hiện, các "công thức" thành công và các giả thuyết thất bại bằng cách sử dụng Git, công cụ quản lý phiên bản tiêu chuẩn được sử dụng trong kỹ thuật phần mềm.
Cách tiếp cận dựa trên đội robot này mang lại những lợi ích to lớn về mặt thời gian:
- Push-T Test: Việc mở rộng từ một lên tám tác nhân đã giảm thời gian hoàn thành từ năm giờ xuống chỉ còn hai giờ.
- Pin Insertion: Thời gian hoàn thành nhiệm vụ đã giảm từ hơn 90 phút xuống còn khoảng 40 phút.
- Tỷ lệ thành công: Đội robot đã đạt được tỷ lệ thành công lên tới 99% trong các nhiệm vụ khắt khe, bao gồm phân loại chốt và cắt dây rút.
Khoảng cách thực tế: Mô phỏng so với Phần cứng
Bất chấp những đột phá này, nghiên cứu cũng làm nổi bật khoảng cách "sim-to-real". Mặc dù cả ba tác nhân được thử nghiệm đều giải quyết được bài kiểm tra Push-T trong môi trường mô phỏng, nhưng hai trong số ba tác nhân đã thất bại khi chuyển sang phần cứng vật lý do các biến số không thể dự đoán trước như ma sát và động lực học của robot. Tuy nhiên, ENPIRE đã thể hiện hiệu suất vượt trội trong mô phỏng RoboCasa so với các mô hình đã được thiết lập như GR00T.
Khi ngành công nghiệp hướng tới robot đa năng, khả năng máy móc có thể "tự nghiên cứu" thông qua mã nguồn sẽ là chìa khóa để vượt qua các chuyển động được lập trình sẵn hạn hẹp, tiến tới trí tuệ thích ứng thực sự.
Các điểm chính cần lưu ý
- Lặp lại tự trị: ENPIRE cho phép robot tự viết các hàm phần thưởng (reward functions) và mã huấn luyện của riêng chúng, giúp giảm đáng kể nhu cầu các kỹ sư con người phải thiết lập lại các bối cảnh hoặc tinh chỉnh thuật toán.
- Học tập cộng tác: Bằng cách sử dụng Git để chia sẻ dữ liệu, một đội gồm tám robot có thể cùng nhau học hỏi từ những thành công và thất bại của nhau, giúp đẩy nhanh đáng kể tiến trình huấn luyện.
- Sự phức tạp của thế giới thực: Mặc dù hệ thống đạt được tỷ lệ thành công lên tới 99% trong các nhiệm vụ cụ thể, nhưng bản chất không thể dự đoán của môi trường vật lý vẫn là một thách thức đáng kể so với việc huấn luyện trong môi trường mô phỏng.