Nvidia ಸಂಶೋಧಕರು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ರೋಬೋಟ್ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ ಮಾಡಿದರು
ರೋಬೋಟಿಕ್ಸ್ನಲ್ಲಿ ಮ್ಯಾನುಯಲ್ ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಮತ್ತು ನಿರಂತರ ಮಾನವ ಹಸ್ತಕ್ಷೇಪದ ಅಡಚಣೆಯನ್ನು ಅಂತಿಮವಾಗಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದೆ. AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ರೋಬೋಟ್ಗಳು ತಮ್ಮದೇ ಆದ ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ಸ್ವತಂತ್ರವಾಗಿ ಬರೆಯಲು ಮತ್ತು ನೈಜ-ಪ್ರಪಂಚದ ಪರಿಸರದಲ್ಲಿ ತಮ್ಮ ಚಾತುರ್ಯವನ್ನು ಸುಧಾರಿಸಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ವ್ಯವಸ್ಥೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದಾರೆ.
ENPIRE ಮೂಲಕ ಮ್ಯಾನುಯಲ್ ಅಡಚಣೆಯನ್ನು ನಿವಾರಿಸುವುದು
ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ, ರೋಬೋಟ್ಗೆ ಚಾತುರ್ಯಯುತವಾಗಿ ವಸ್ತುಗಳನ್ನು ಹಿಡಿಯುವಂತಹ (dexterous grasping) ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಸಲು, ಮಾನವ ಎಂಜಿನಿಯರ್ಗಳು ದೃಶ್ಯಗಳನ್ನು ಮರುಹೊಂದಿಸುವುದು (reset scenes), ಡೇಟಾ ಸೆಟ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಅಲ್ಗಾರಿದಮ್ಗಳನ್ನು ಮ್ಯಾನುಯಲ್ ಆಗಿ ಸರಿಪಡಿಸುವುದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ. ಈ ಶ್ರಮದಾಯಕ ಪ್ರಕ್ರಿಯೆಯು ರೋಬೋಟಿಕ್ ಬುದ್ಧಿವಂತತೆಯನ್ನು ವಿಸ್ತರಿಸುವಲ್ಲಿ ದೊಡ್ಡ ಅಡಚಣೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಇದನ್ನು ಪರಿಹರಿಸಲು, Nvidia, ಕಾರ್ನೆಗಿ ಮೆಲ್ಲನ್ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮತ್ತು UC ಬರ್ಕ್ಲಿ ಸಂಶೋಧಕರು ENPIRE ಅನ್ನು ಪರಿಚಯಿಸಿದ್ದಾರೆ. ಇದು ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸ್ವಯಂ-ನಿರ್ವಹಣೆಯ ಫೀಡ್ಬ್ಯಾಕ್ ಲೂಪ್ ಆಗಿ ಪರಿವರ್ತಿಸುವ ಒಂದು ಚೌಕಟ್ಟಾಗಿದೆ (framework).
ಮಾನವ ಸೂಚನೆಗಳಿಗಾಗಿ ಕಾಯುವ ಬದಲು, ENPIRE ವ್ಯವಸ್ಥೆಯು ಇಡೀ ಜೀವನಚಕ್ರವನ್ನು ನಿರ್ವಹಿಸಲು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳನ್ನು ಬಳಸುತ್ತದೆ: ವರ್ಕ್ಸ್ಪೇಸ್ ಅನ್ನು ಮರುಹೊಂದಿಸುವುದು, ಚಲನಾ ತಂತ್ರವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಫಲಿತಾಂಶವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸಲು ತಕ್ಷಣವೇ ಕೋಡ್ನಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡುವುದು. ಇದು ರೋಬೋಟಿಕ್ಸ್ ಅನ್ನು "human-in-the-loop" ನಿಂದ "agent-in-the-loop" ಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.
ಸ್ವಾಯತ್ತ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳು ಚಾತುರ್ಯವನ್ನು ಹೇಗೆ ಉತ್ತೇಜಿಸುತ್ತವೆ
ENPIRE ಚೌಕಟ್ಟು ಎರಡು ವಿಭಿನ್ನ ಹಂತಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಮೊದಲ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್ ಕನಿಷ್ಠ ಮಾನವ ಮಾರ್ಗದರ್ಶನದೊಂದಿಗೆ—ಸಾಮಾನ್ಯವಾಗಿ ಯಶಸ್ವಿ ಮತ್ತು ವಿಫಲ ಪ್ರಯತ್ನಗಳನ್ನು ತೋರಿಸುವ ಕೆಲವು ನಿಮಿಷಗಳ ವೀಡಿಯೊದ ಮೂಲಕ—ವರ್ಕ್ಸ್ಪೇಸ್ ಅನ್ನು ಸ್ಥಾಪಿಸುತ್ತದೆ. ಪ್ರಮುಖವಾಗಿ, ಏಜೆಂಟ್ ತನ್ನದೇ ಆದ ರಿವಾರ್ಡ್ ಫಂಕ್ಷನ್ಗಳನ್ನು (reward functions) ಬರೆಯುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಪಿನ್ ಇನ್ಸರ್ಷನ್ (pin insertion) ಕಾರ್ಯಗಳ ಸಮಯದಲ್ಲಿ, ಯಶಸ್ಸನ್ನು ನಿರ್ಧರಿಸಲು ಏಜೆಂಟ್ ದೃಶ್ಯ ಜೋಡಣೆ (visual alignment), ಗ್ರಿಪ್ಪರ್ ಎತ್ತರ ಮತ್ತು ಅಂದಾಜು ಬಲವನ್ನು ಸಂಯೋಜಿಸುವ ಕಸ್ಟಮ್ ಚೆಕ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿತು.
ಎರಡನೇ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್ಗಳು ಸಂಪೂರ್ಣ ಸ್ವಾಯತ್ತತೆಯೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಅವು ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳನ್ನು ಓದುತ್ತವೆ, ಪರಿಕಲ್ಪನೆಗಳನ್ನು (hypotheses) ರೂಪಿಸುತ್ತವೆ ಮತ್ತು ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ನೇರವಾಗಿ ಎಡಿಟ್ ಮಾಡುತ್ತವೆ. ಯಾವ ವಿಧಾನವು ಉತ್ತಮ ನೈಜ-ಪ್ರಪಂಚದ ಸಿಗ್ನಲ್ಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಅವು behavior cloning (ಮಾನವ ಚಲನೆಯನ್ನು ಅನುಕರಿಸುವುದು) ಅಥವಾ reinforcement learning (ಪ್ರಯತ್ನ ಮತ್ತು ತಪ್ಪು) ನಂತಹ ವಿಧಾನಗಳ ನಡುವೆ ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಬಹುದು. ಪರೀಕ್ಷೆಯ ಸಮಯದಲ್ಲಿ, ಸಂಶೋಧಕರು Codex (GPT-5.5 ನೊಂದಿಗೆ), Claude Code (Opus 4.7 ನೊಂದಿಗೆ) ಮತ್ತು Kimi Code (Kimi K2.6 ನೊಂದಿಗೆ) ಸೇರಿದಂತೆ ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಾದರಿಗಳನ್ನು ಬಳಸಿದರು, ಇದರಲ್ಲಿ Codex ಅತ್ಯುತ್ತಮ ಸಾಧನೆ ಮಾಡಿತು.
Git-ಸಜ್ಜಿತ ರೋಬೋಟ್ ಫ್ಲೀಟ್ ಮೂಲಕ ವಿಸ್ತರಣೆ
ಈ ಸಂಶೋಧನೆಯ ಅತ್ಯಂತ ನವೀನ ಅಂಶಗಳಲ್ಲಿ ಒಂದೆಂದರೆ ಎಂಟು dual-arm YAM ರೋಬೋಟ್ ಸ್ಟೇಷನ್ಗಳ ಸಮೂಹದ ಸಮನ್ವಯ. ಇವು ಪ್ರತ್ಯೇಕವಾಗಿ ಕೆಲಸ ಮಾಡುವ ಬದಲು, ಒಂದು ವಿತರಿಸಿದ ಸಂಶೋಧನಾ ತಂಡವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಇವು ತಮ್ಮ ಸಂಶೋಧನೆಗಳು, ಯಶಸ್ವಿ "ರೆಸಿಪಿಗಳು" ಮತ್ತು ವಿಫಲವಾದ ಕಲ್ಪನೆಗಳನ್ನು ಸಾಫ್ಟ್ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ನಲ್ಲಿ ಬಳಸಲಾಗುವ ಪ್ರಮಾಣಿತ ವರ್ಷನ್ ಕಂಟ್ರೋಲ್ ಸಾಧನವಾದ Git ಮೂಲಕ ಹಂಚಿಕೊಳ್ಳುತ್ತವೆ.
ಈ ಸಮೂಹ ಆಧಾರಿತ ವಿಧಾನವು ಭಾರಿ ಸಮಯದ ಉಳಿತಾಯವನ್ನು ನೀಡುತ್ತದೆ:
- Push-T ಪರೀಕ್ಷೆ: ಏಜೆಂಟ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಒಂದರಿಂದ ಎಂಟರವರೆಗೆ ವಿಸ್ತರಿಸಿದಾಗ, ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ಸಮಯವು ಐದು ಗಂಟೆಗಳಿಂದ ಕೇವಲ ಎರಡು ಗಂಟೆಗಳಿಗೆ ಇಳಿಕೆಯಾಯಿತು.
- Pin Insertion: ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ಸಮಯವು 90 ನಿಮಿಷಗಳಿಗಿಂತ ಹೆಚ್ಚು ಇರುವುದದಿಂದ ಸುಮಾರು 40 ನಿಮಿಷಗಳಿಗೆ ಇಳಿಕೆಯಾಯಿತು.
- ಯಶಸ್ಸಿನ ದರಗಳು: ಪಿನ್ಗಳನ್ನು ವಿಂಗಡಿಸುವುದು ಮತ್ತು ಕೇಬಲ್ ಟೈಗಳನ್ನು ಕತ್ತರಿಸುವುದು ಸೇರಿದಂತೆ ಕಠಿಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಈ ಸಮೂಹವು 99% ರಷ್ಟು ಯಶಸ್ಸನ್ನು ಸಾಧಿಸಿತು.
ವಾಸ್ತವದ ಅಂತರ: Simulation vs. Hardware
ಈ ಪ್ರಗತಿಗಳ ಹೊರತಾಗಿಯೂ, ಈ ಸಂಶೋಧನೆಯು "sim-to-real" ಅಂತರವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಪರೀಕ್ಷಿಸಲಾದ ಮೂರೂ ಏಜೆಂಟ್ಗಳು ಸಿಮ್ಯುಲೇಶನ್ನಲ್ಲಿ Push-T ಪರೀಕ್ಷೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಪೂರ್ಣಗೊಳಿಸಿದರೂ, ಘರ್ಷಣೆ (friction) ಮತ್ತು ರೋಬೋಟ್ ಡೈನಾಮಿಕ್ಸ್ನಂತಹ ಅನಿರೀಕ್ಷಿತ ಬದಲಾವಣೆಗಳಿಂದಾಗಿ ಭೌತಿಕ ಹಾರ್ಡ್ವೇರ್ಗೆ ಬದಲಾಯಿಸಿದಾಗ ಮೂರರಲ್ಲಿ ಇಬ್ಬರು ವಿಫಲರಾದರು. ಆದಾಗ್ಯೂ, ENPIRE ஆனது GR00T ನಂತಹ ಸ್ಥಾಪಿತ ಮಾದರಿಗಳಿಗೆ ಹೋಲಿಸಿದರೆ RoboCasa ಸಿಮ್ಯುಲೇಶನ್ನಲ್ಲಿ ಉತ್ತಮ ಪ್ರದರ್ಶನವನ್ನು ನೀಡಿತು.
ಉದ್ಯಮವು ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ರೋಬೊಟಿಕ್ಸ್ ಕಡೆಗೆ ಸಾಗುತ್ತಿರುವಾಗ, ಯಂತ್ರಗಳು ಕೋಡ್ ಮೂಲಕ "ಸ್ವಯಂ-ಸಂಶೋಧನೆ" ಮಾಡುವ ಸಾಮರ್ಥ್ಯವು, ಕೇವಲ ಮೊದಲೇ ಪ್ರೋಗ್ರಾಂ ಮಾಡಲಾದ ಚಲನೆಗಳಿಂದ 벗ರಿ ನಿಜವಾದ, ಹೊಂದಿಕೊಳ್ಳುವ ಬುದ್ಧಿವಂತಿಕೆಯತ್ತ ಸಾಗಲು ಪ್ರಮುಖವಾಗಲಿದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ಸ್ವಾಯತ್ತ ಪುನರಾವರ್ತನೆ: ENPIRE ರೋಬೋಟ್ಗಳು ತಮ್ಮದೇ ಆದ reward functions ಮತ್ತು ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ಬರೆಯಲು ಅನುಮತಿಸುತ್ತದೆ, ಇದು ದೃಶ್ಯಗಳನ್ನು ಮರುಹೊಂದಿಸಲು ಅಥವಾ ಅಲ್ಗಾರಿದಮ್ಗಳನ್ನು ಸರಿಪಡಿಸಲು ಮಾನವ ಎಂಜಿನಿಯರ್ಗಳ ಅಗತ್ಯವನ್ನು ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
- ಸಹಯೋಗದ ಕಲಿಕೆ: ಡೇಟಾವನ್ನು ಹಂಚಿಕೊಳ್ಳಲು Git ಅನ್ನು ಬಳಸುವ ಮೂಲಕ, ಎಂಟು ರೋಬೋಟ್ಗಳ ಸಮೂಹವು ಪರಸ್ಪರರ ಯಶಸ್ಸು ಮತ್ತು ವೈಫಲ್ಯಗಳಿಂದ ಸಾಮೂಹಿಕವಾಗಿ ಕಲಿಯಬಹುದು, ಇದು ತರಬೇತಿಯ ಸಮಯವನ್ನು ಗಣನೀಯವಾಗಿ ವೇಗಗೊಳಿಸುತ್ತದೆ.
- ನೈಜ ಪ್ರಪಂಚದ ಸಂಕೀರ್ಣತೆ: ಈ ವ್ಯವಸ್ಥೆಯು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳಲ್ಲಿ 99% ರಷ್ಟು ಯಶಸ್ಸನ್ನು ಸಾಧಿಸಿದರೂ, ಸಿಮ್ಯುಲೇಟೆಡ್ ತರಬೇತಿಗೆ ಹೋಲಿಸಿದರೆ ಭೌತಿಕ ಪರಿಸರಗಳ ಅನಿರೀಕ್ಷಿತ ಸ್ವಭಾವವು ಒಂದು ದೊಡ್ಡ ಸವಾಲಾಗಿದೆ.