Nvidia ಸಂಶೋಧಕರು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ರೋಬೋಟ್‌ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ ಮಾಡಿದರು

ರೋಬೋಟಿಕ್ಸ್‌ನಲ್ಲಿ ಮ್ಯಾನುಯಲ್ ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಮತ್ತು ನಿರಂತರ ಮಾನವ ಹಸ್ತಕ್ಷೇಪದ ಅಡಚಣೆಯನ್ನು ಅಂತಿಮವಾಗಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದೆ. AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ರೋಬೋಟ್‌ಗಳು ತಮ್ಮದೇ ಆದ ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ಸ್ವತಂತ್ರವಾಗಿ ಬರೆಯಲು ಮತ್ತು ನೈಜ-ಪ್ರಪಂಚದ ಪರಿಸರದಲ್ಲಿ ತಮ್ಮ ಚಾತುರ್ಯವನ್ನು ಸುಧಾರಿಸಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ವ್ಯವಸ್ಥೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದಾರೆ.

ENPIRE ಮೂಲಕ ಮ್ಯಾನುಯಲ್ ಅಡಚಣೆಯನ್ನು ನಿವಾರಿಸುವುದು

ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ, ರೋಬೋಟ್‌ಗೆ ಚಾತುರ್ಯಯುತವಾಗಿ ವಸ್ತುಗಳನ್ನು ಹಿಡಿಯುವಂತಹ (dexterous grasping) ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಸಲು, ಮಾನವ ಎಂಜಿನಿಯರ್‌ಗಳು ದೃಶ್ಯಗಳನ್ನು ಮರುಹೊಂದಿಸುವುದು (reset scenes), ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಮ್ಯಾನುಯಲ್ ಆಗಿ ಸರಿಪಡಿಸುವುದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ. ಈ ಶ್ರಮದಾಯಕ ಪ್ರಕ್ರಿಯೆಯು ರೋಬೋಟಿಕ್ ಬುದ್ಧಿವಂತತೆಯನ್ನು ವಿಸ್ತರಿಸುವಲ್ಲಿ ದೊಡ್ಡ ಅಡಚಣೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಇದನ್ನು ಪರಿಹರಿಸಲು, Nvidia, ಕಾರ್ನೆಗಿ ಮೆಲ್ಲನ್ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮತ್ತು UC ಬರ್ಕ್ಲಿ ಸಂಶೋಧಕರು ENPIRE ಅನ್ನು ಪರಿಚಯಿಸಿದ್ದಾರೆ. ಇದು ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸ್ವಯಂ-ನಿರ್ವಹಣೆಯ ಫೀಡ್‌ಬ್ಯಾಕ್ ಲೂಪ್ ಆಗಿ ಪರಿವರ್ತಿಸುವ ಒಂದು ಚೌಕಟ್ಟಾಗಿದೆ (framework).

ಮಾನವ ಸೂಚನೆಗಳಿಗಾಗಿ ಕಾಯುವ ಬದಲು, ENPIRE ವ್ಯವಸ್ಥೆಯು ಇಡೀ ಜೀವನಚಕ್ರವನ್ನು ನಿರ್ವಹಿಸಲು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತದೆ: ವರ್ಕ್‌ಸ್ಪೇಸ್ ಅನ್ನು ಮರುಹೊಂದಿಸುವುದು, ಚಲನಾ ತಂತ್ರವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಫಲಿತಾಂಶವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸಲು ತಕ್ಷಣವೇ ಕೋಡ್‌ನಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡುವುದು. ಇದು ರೋಬೋಟಿಕ್ಸ್ ಅನ್ನು "human-in-the-loop" ನಿಂದ "agent-in-the-loop" ಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.

ಸ್ವಾಯತ್ತ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳು ಚಾತುರ್ಯವನ್ನು ಹೇಗೆ ಉತ್ತೇಜಿಸುತ್ತವೆ

ENPIRE ಚೌಕಟ್ಟು ಎರಡು ವಿಭಿನ್ನ ಹಂತಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಮೊದಲ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್ ಕನಿಷ್ಠ ಮಾನವ ಮಾರ್ಗದರ್ಶನದೊಂದಿಗೆ—ಸಾಮಾನ್ಯವಾಗಿ ಯಶಸ್ವಿ ಮತ್ತು ವಿಫಲ ಪ್ರಯತ್ನಗಳನ್ನು ತೋರಿಸುವ ಕೆಲವು ನಿಮಿಷಗಳ ವೀಡಿಯೊದ ಮೂಲಕ—ವರ್ಕ್‌ಸ್ಪೇಸ್ ಅನ್ನು ಸ್ಥಾಪಿಸುತ್ತದೆ. ಪ್ರಮುಖವಾಗಿ, ಏಜೆಂಟ್ ತನ್ನದೇ ಆದ ರಿವಾರ್ಡ್ ಫಂಕ್ಷನ್‌ಗಳನ್ನು (reward functions) ಬರೆಯುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಪಿನ್ ಇನ್ಸರ್ಷನ್ (pin insertion) ಕಾರ್ಯಗಳ ಸಮಯದಲ್ಲಿ, ಯಶಸ್ಸನ್ನು ನಿರ್ಧರಿಸಲು ಏಜೆಂಟ್ ದೃಶ್ಯ ಜೋಡಣೆ (visual alignment), ಗ್ರಿಪ್ಪರ್ ಎತ್ತರ ಮತ್ತು ಅಂದಾಜು ಬಲವನ್ನು ಸಂಯೋಜಿಸುವ ಕಸ್ಟಮ್ ಚೆಕ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿತು.

ಎರಡನೇ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್‌ಗಳು ಸಂಪೂರ್ಣ ಸ್ವಾಯತ್ತತೆಯೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಅವು ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳನ್ನು ಓದುತ್ತವೆ, ಪರಿಕಲ್ಪನೆಗಳನ್ನು (hypotheses) ರೂಪಿಸುತ್ತವೆ ಮತ್ತು ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ನೇರವಾಗಿ ಎಡಿಟ್ ಮಾಡುತ್ತವೆ. ಯಾವ ವಿಧಾನವು ಉತ್ತಮ ನೈಜ-ಪ್ರಪಂಚದ ಸಿಗ್ನಲ್‌ಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಅವು behavior cloning (ಮಾನವ ಚಲನೆಯನ್ನು ಅನುಕರಿಸುವುದು) ಅಥವಾ reinforcement learning (ಪ್ರಯತ್ನ ಮತ್ತು ತಪ್ಪು) ನಂತಹ ವಿಧಾನಗಳ ನಡುವೆ ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಬಹುದು. ಪರೀಕ್ಷೆಯ ಸಮಯದಲ್ಲಿ, ಸಂಶೋಧಕರು Codex (GPT-5.5 ನೊಂದಿಗೆ), Claude Code (Opus 4.7 ನೊಂದಿಗೆ) ಮತ್ತು Kimi Code (Kimi K2.6 ನೊಂದಿಗೆ) ಸೇರಿದಂತೆ ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಾದರಿಗಳನ್ನು ಬಳಸಿದರು, ಇದರಲ್ಲಿ Codex ಅತ್ಯುತ್ತಮ ಸಾಧನೆ ಮಾಡಿತು.

Git-ಸಜ್ಜಿತ ರೋಬೋಟ್ ಫ್ಲೀಟ್ ಮೂಲಕ ವಿಸ್ತರಣೆ

ಈ ಸಂಶೋಧನೆಯ ಅತ್ಯಂತ ನವೀನ ಅಂಶಗಳಲ್ಲಿ ಒಂದೆಂದರೆ ಎಂಟು dual-arm YAM ರೋಬೋಟ್ ಸ್ಟೇಷನ್‌ಗಳ ಸಮೂಹದ ಸಮನ್ವಯ. ಇವು ಪ್ರತ್ಯೇಕವಾಗಿ ಕೆಲಸ ಮಾಡುವ ಬದಲು, ಒಂದು ವಿತರಿಸಿದ ಸಂಶೋಧನಾ ತಂಡವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಇವು ತಮ್ಮ ಸಂಶೋಧನೆಗಳು, ಯಶಸ್ವಿ "ರೆಸಿಪಿಗಳು" ಮತ್ತು ವಿಫಲವಾದ ಕಲ್ಪನೆಗಳನ್ನು ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್‌ನಲ್ಲಿ ಬಳಸಲಾಗುವ ಪ್ರಮಾಣಿತ ವರ್ಷನ್ ಕಂಟ್ರೋಲ್ ಸಾಧನವಾದ Git ಮೂಲಕ ಹಂಚಿಕೊಳ್ಳುತ್ತವೆ.

ಈ ಸಮೂಹ ಆಧಾರಿತ ವಿಧಾನವು ಭಾರಿ ಸಮಯದ ಉಳಿತಾಯವನ್ನು ನೀಡುತ್ತದೆ:

ವಾಸ್ತವದ ಅಂತರ: Simulation vs. Hardware

ಈ ಪ್ರಗತಿಗಳ ಹೊರತಾಗಿಯೂ, ಈ ಸಂಶೋಧನೆಯು "sim-to-real" ಅಂತರವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಪರೀಕ್ಷಿಸಲಾದ ಮೂರೂ ಏಜೆಂಟ್‌ಗಳು ಸಿಮ್ಯುಲೇಶನ್‌ನಲ್ಲಿ Push-T ಪರೀಕ್ಷೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಪೂರ್ಣಗೊಳಿಸಿದರೂ, ಘರ್ಷಣೆ (friction) ಮತ್ತು ರೋಬೋಟ್ ಡೈನಾಮಿಕ್ಸ್‌ನಂತಹ ಅನಿರೀಕ್ಷಿತ ಬದಲಾವಣೆಗಳಿಂದಾಗಿ ಭೌತಿಕ ಹಾರ್ಡ್‌ವೇರ್‌ಗೆ ಬದಲಾಯಿಸಿದಾಗ ಮೂರರಲ್ಲಿ ಇಬ್ಬರು ವಿಫಲರಾದರು. ಆದಾಗ್ಯೂ, ENPIRE ஆனது GR00T ನಂತಹ ಸ್ಥಾಪಿತ ಮಾದರಿಗಳಿಗೆ ಹೋಲಿಸಿದರೆ RoboCasa ಸಿಮ್ಯುಲೇಶನ್‌ನಲ್ಲಿ ಉತ್ತಮ ಪ್ರದರ್ಶನವನ್ನು ನೀಡಿತು.

ಉದ್ಯಮವು ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ರೋಬೊಟಿಕ್ಸ್ ಕಡೆಗೆ ಸಾಗುತ್ತಿರುವಾಗ, ಯಂತ್ರಗಳು ಕೋಡ್ ಮೂಲಕ "ಸ್ವಯಂ-ಸಂಶೋಧನೆ" ಮಾಡುವ ಸಾಮರ್ಥ್ಯವು, ಕೇವಲ ಮೊದಲೇ ಪ್ರೋಗ್ರಾಂ ಮಾಡಲಾದ ಚಲನೆಗಳಿಂದ 벗ರಿ ನಿಜವಾದ, ಹೊಂದಿಕೊಳ್ಳುವ ಬುದ್ಧಿವಂತಿಕೆಯತ್ತ ಸಾಗಲು ಪ್ರಮುಖವಾಗಲಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು