AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳ ಮೂಲಕ ರೋಬೋಟ್‌ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ Nvidia ಸಂಶೋಧಕರು ಮಾಡಿಕೊಟ್ಟಿದ್ದಾರೆ

📅2 hours ago⏱3 min read

In this article

Nvidia ಸಂಶೋಧಕರು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ರೋಬೋಟ್‌ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ ಮಾಡಿದರು

ರೋಬೋಟಿಕ್ಸ್‌ನಲ್ಲಿ ಮ್ಯಾನುಯಲ್ ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಮತ್ತು ನಿರಂತರ ಮಾನವ ಹಸ್ತಕ್ಷೇಪದ ಅಡಚಣೆಯನ್ನು ಅಂತಿಮವಾಗಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದೆ. AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ರೋಬೋಟ್‌ಗಳು ತಮ್ಮದೇ ಆದ ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ಸ್ವತಂತ್ರವಾಗಿ ಬರೆಯಲು ಮತ್ತು ನೈಜ-ಪ್ರಪಂಚದ ಪರಿಸರದಲ್ಲಿ ತಮ್ಮ ಚಾತುರ್ಯವನ್ನು ಸುಧಾರಿಸಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವ ವ್ಯವಸ್ಥೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದಾರೆ.

ENPIRE ಮೂಲಕ ಮ್ಯಾನುಯಲ್ ಅಡಚಣೆಯನ್ನು ನಿವಾರಿಸುವುದು

ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ, ರೋಬೋಟ್‌ಗೆ ಚಾತುರ್ಯಯುತವಾಗಿ ವಸ್ತುಗಳನ್ನು ಹಿಡಿಯುವಂತಹ (dexterous grasping) ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಸಲು, ಮಾನವ ಎಂಜಿನಿಯರ್‌ಗಳು ದೃಶ್ಯಗಳನ್ನು ಮರುಹೊಂದಿಸುವುದು (reset scenes), ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಮ್ಯಾನುಯಲ್ ಆಗಿ ಸರಿಪಡಿಸುವುದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ. ಈ ಶ್ರಮದಾಯಕ ಪ್ರಕ್ರಿಯೆಯು ರೋಬೋಟಿಕ್ ಬುದ್ಧಿವಂತತೆಯನ್ನು ವಿಸ್ತರಿಸುವಲ್ಲಿ ದೊಡ್ಡ ಅಡಚಣೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಇದನ್ನು ಪರಿಹರಿಸಲು, Nvidia, ಕಾರ್ನೆಗಿ ಮೆಲ್ಲನ್ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮತ್ತು UC ಬರ್ಕ್ಲಿ ಸಂಶೋಧಕರು ENPIRE ಅನ್ನು ಪರಿಚಯಿಸಿದ್ದಾರೆ. ಇದು ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸ್ವಯಂ-ನಿರ್ವಹಣೆಯ ಫೀಡ್‌ಬ್ಯಾಕ್ ಲೂಪ್ ಆಗಿ ಪರಿವರ್ತಿಸುವ ಒಂದು ಚೌಕಟ್ಟಾಗಿದೆ (framework).

ಮಾನವ ಸೂಚನೆಗಳಿಗಾಗಿ ಕಾಯುವ ಬದಲು, ENPIRE ವ್ಯವಸ್ಥೆಯು ಇಡೀ ಜೀವನಚಕ್ರವನ್ನು ನಿರ್ವಹಿಸಲು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತದೆ: ವರ್ಕ್‌ಸ್ಪೇಸ್ ಅನ್ನು ಮರುಹೊಂದಿಸುವುದು, ಚಲನಾ ತಂತ್ರವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಫಲಿತಾಂಶವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸಲು ತಕ್ಷಣವೇ ಕೋಡ್‌ನಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡುವುದು. ಇದು ರೋಬೋಟಿಕ್ಸ್ ಅನ್ನು "human-in-the-loop" ನಿಂದ "agent-in-the-loop" ಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.

ಸ್ವಾಯತ್ತ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳು ಚಾತುರ್ಯವನ್ನು ಹೇಗೆ ಉತ್ತೇಜಿಸುತ್ತವೆ

ENPIRE ಚೌಕಟ್ಟು ಎರಡು ವಿಭಿನ್ನ ಹಂತಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಮೊದಲ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್ ಕನಿಷ್ಠ ಮಾನವ ಮಾರ್ಗದರ್ಶನದೊಂದಿಗೆ—ಸಾಮಾನ್ಯವಾಗಿ ಯಶಸ್ವಿ ಮತ್ತು ವಿಫಲ ಪ್ರಯತ್ನಗಳನ್ನು ತೋರಿಸುವ ಕೆಲವು ನಿಮಿಷಗಳ ವೀಡಿಯೊದ ಮೂಲಕ—ವರ್ಕ್‌ಸ್ಪೇಸ್ ಅನ್ನು ಸ್ಥಾಪಿಸುತ್ತದೆ. ಪ್ರಮುಖವಾಗಿ, ಏಜೆಂಟ್ ತನ್ನದೇ ಆದ ರಿವಾರ್ಡ್ ಫಂಕ್ಷನ್‌ಗಳನ್ನು (reward functions) ಬರೆಯುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಪಿನ್ ಇನ್ಸರ್ಷನ್ (pin insertion) ಕಾರ್ಯಗಳ ಸಮಯದಲ್ಲಿ, ಯಶಸ್ಸನ್ನು ನಿರ್ಧರಿಸಲು ಏಜೆಂಟ್ ದೃಶ್ಯ ಜೋಡಣೆ (visual alignment), ಗ್ರಿಪ್ಪರ್ ಎತ್ತರ ಮತ್ತು ಅಂದಾಜು ಬಲವನ್ನು ಸಂಯೋಜಿಸುವ ಕಸ್ಟಮ್ ಚೆಕ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿತು.

ಎರಡನೇ ಹಂತದಲ್ಲಿ, ಏಜೆಂಟ್‌ಗಳು ಸಂಪೂರ್ಣ ಸ್ವಾಯತ್ತತೆಯೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಅವು ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳನ್ನು ಓದುತ್ತವೆ, ಪರಿಕಲ್ಪನೆಗಳನ್ನು (hypotheses) ರೂಪಿಸುತ್ತವೆ ಮತ್ತು ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ನೇರವಾಗಿ ಎಡಿಟ್ ಮಾಡುತ್ತವೆ. ಯಾವ ವಿಧಾನವು ಉತ್ತಮ ನೈಜ-ಪ್ರಪಂಚದ ಸಿಗ್ನಲ್‌ಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಅವು behavior cloning (ಮಾನವ ಚಲನೆಯನ್ನು ಅನುಕರಿಸುವುದು) ಅಥವಾ reinforcement learning (ಪ್ರಯತ್ನ ಮತ್ತು ತಪ್ಪು) ನಂತಹ ವಿಧಾನಗಳ ನಡುವೆ ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಬಹುದು. ಪರೀಕ್ಷೆಯ ಸಮಯದಲ್ಲಿ, ಸಂಶೋಧಕರು Codex (GPT-5.5 ನೊಂದಿಗೆ), Claude Code (Opus 4.7 ನೊಂದಿಗೆ) ಮತ್ತು Kimi Code (Kimi K2.6 ನೊಂದಿಗೆ) ಸೇರಿದಂತೆ ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಾದರಿಗಳನ್ನು ಬಳಸಿದರು, ಇದರಲ್ಲಿ Codex ಅತ್ಯುತ್ತಮ ಸಾಧನೆ ಮಾಡಿತು.

Git-ಸಜ್ಜಿತ ರೋಬೋಟ್ ಫ್ಲೀಟ್ ಮೂಲಕ ವಿಸ್ತರಣೆ

ಈ ಸಂಶೋಧನೆಯ ಅತ್ಯಂತ ನವೀನ ಅಂಶಗಳಲ್ಲಿ ಒಂದೆಂದರೆ ಎಂಟು dual-arm YAM ರೋಬೋಟ್ ಸ್ಟೇಷನ್‌ಗಳ ಸಮೂಹದ ಸಮನ್ವಯ. ಇವು ಪ್ರತ್ಯೇಕವಾಗಿ ಕೆಲಸ ಮಾಡುವ ಬದಲು, ಒಂದು ವಿತರಿಸಿದ ಸಂಶೋಧನಾ ತಂಡವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ಇವು ತಮ್ಮ ಸಂಶೋಧನೆಗಳು, ಯಶಸ್ವಿ "ರೆಸಿಪಿಗಳು" ಮತ್ತು ವಿಫಲವಾದ ಕಲ್ಪನೆಗಳನ್ನು ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್‌ನಲ್ಲಿ ಬಳಸಲಾಗುವ ಪ್ರಮಾಣಿತ ವರ್ಷನ್ ಕಂಟ್ರೋಲ್ ಸಾಧನವಾದ Git ಮೂಲಕ ಹಂಚಿಕೊಳ್ಳುತ್ತವೆ.

ಈ ಸಮೂಹ ಆಧಾರಿತ ವಿಧಾನವು ಭಾರಿ ಸಮಯದ ಉಳಿತಾಯವನ್ನು ನೀಡುತ್ತದೆ:

Push-T ಪರೀಕ್ಷೆ: ಏಜೆಂಟ್‌ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಒಂದರಿಂದ ಎಂಟರವರೆಗೆ ವಿಸ್ತರಿಸಿದಾಗ, ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ಸಮಯವು ಐದು ಗಂಟೆಗಳಿಂದ ಕೇವಲ ಎರಡು ಗಂಟೆಗಳಿಗೆ ಇಳಿಕೆಯಾಯಿತು.
Pin Insertion: ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ಸಮಯವು 90 ನಿಮಿಷಗಳಿಗಿಂತ ಹೆಚ್ಚು ಇರುವುದದಿಂದ ಸುಮಾರು 40 ನಿಮಿಷಗಳಿಗೆ ಇಳಿಕೆಯಾಯಿತು.
ಯಶಸ್ಸಿನ ದರಗಳು: ಪಿನ್‌ಗಳನ್ನು ವಿಂಗಡಿಸುವುದು ಮತ್ತು ಕೇಬಲ್ ಟೈಗಳನ್ನು ಕತ್ತರಿಸುವುದು ಸೇರಿದಂತೆ ಕಠಿಣ ಕಾರ್ಯಗಳಲ್ಲಿ ಈ ಸಮೂಹವು 99% ರಷ್ಟು ಯಶಸ್ಸನ್ನು ಸಾಧಿಸಿತು.

ವಾಸ್ತವದ ಅಂತರ: Simulation vs. Hardware

ಈ ಪ್ರಗತಿಗಳ ಹೊರತಾಗಿಯೂ, ಈ ಸಂಶೋಧನೆಯು "sim-to-real" ಅಂತರವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಪರೀಕ್ಷಿಸಲಾದ ಮೂರೂ ಏಜೆಂಟ್‌ಗಳು ಸಿಮ್ಯುಲೇಶನ್‌ನಲ್ಲಿ Push-T ಪರೀಕ್ಷೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಪೂರ್ಣಗೊಳಿಸಿದರೂ, ಘರ್ಷಣೆ (friction) ಮತ್ತು ರೋಬೋಟ್ ಡೈನಾಮಿಕ್ಸ್‌ನಂತಹ ಅನಿರೀಕ್ಷಿತ ಬದಲಾವಣೆಗಳಿಂದಾಗಿ ಭೌತಿಕ ಹಾರ್ಡ್‌ವೇರ್‌ಗೆ ಬದಲಾಯಿಸಿದಾಗ ಮೂರರಲ್ಲಿ ಇಬ್ಬರು ವಿಫಲರಾದರು. ಆದಾಗ್ಯೂ, ENPIRE ஆனது GR00T ನಂತಹ ಸ್ಥಾಪಿತ ಮಾದರಿಗಳಿಗೆ ಹೋಲಿಸಿದರೆ RoboCasa ಸಿಮ್ಯುಲೇಶನ್‌ನಲ್ಲಿ ಉತ್ತಮ ಪ್ರದರ್ಶನವನ್ನು ನೀಡಿತು.

ಉದ್ಯಮವು ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ರೋಬೊಟಿಕ್ಸ್ ಕಡೆಗೆ ಸಾಗುತ್ತಿರುವಾಗ, ಯಂತ್ರಗಳು ಕೋಡ್ ಮೂಲಕ "ಸ್ವಯಂ-ಸಂಶೋಧನೆ" ಮಾಡುವ ಸಾಮರ್ಥ್ಯವು, ಕೇವಲ ಮೊದಲೇ ಪ್ರೋಗ್ರಾಂ ಮಾಡಲಾದ ಚಲನೆಗಳಿಂದ 벗ರಿ ನಿಜವಾದ, ಹೊಂದಿಕೊಳ್ಳುವ ಬುದ್ಧಿವಂತಿಕೆಯತ್ತ ಸಾಗಲು ಪ್ರಮುಖವಾಗಲಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

ಸ್ವಾಯತ್ತ ಪುನರಾವರ್ತನೆ: ENPIRE ರೋಬೋಟ್‌ಗಳು ತಮ್ಮದೇ ಆದ reward functions ಮತ್ತು ತರಬೇತಿ ಕೋಡ್ ಅನ್ನು ಬರೆಯಲು ಅನುಮತಿಸುತ್ತದೆ, ಇದು ದೃಶ್ಯಗಳನ್ನು ಮರುಹೊಂದಿಸಲು ಅಥವಾ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಸರಿಪಡಿಸಲು ಮಾನವ ಎಂಜಿನಿಯರ್‌ಗಳ ಅಗತ್ಯವನ್ನು ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
ಸಹಯೋಗದ ಕಲಿಕೆ: ಡೇಟಾವನ್ನು ಹಂಚಿಕೊಳ್ಳಲು Git ಅನ್ನು ಬಳಸುವ ಮೂಲಕ, ಎಂಟು ರೋಬೋಟ್‌ಗಳ ಸಮೂಹವು ಪರಸ್ಪರರ ಯಶಸ್ಸು ಮತ್ತು ವೈಫಲ್ಯಗಳಿಂದ ಸಾಮೂಹಿಕವಾಗಿ ಕಲಿಯಬಹುದು, ಇದು ತರಬೇತಿಯ ಸಮಯವನ್ನು ಗಣನೀಯವಾಗಿ ವೇಗಗೊಳಿಸುತ್ತದೆ.
ನೈಜ ಪ್ರಪಂಚದ ಸಂಕೀರ್ಣತೆ: ಈ ವ್ಯವಸ್ಥೆಯು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳಲ್ಲಿ 99% ರಷ್ಟು ಯಶಸ್ಸನ್ನು ಸಾಧಿಸಿದರೂ, ಸಿಮ್ಯುಲೇಟೆಡ್ ತರಬೇತಿಗೆ ಹೋಲಿಸಿದರೆ ಭೌತಿಕ ಪರಿಸರಗಳ ಅನಿರೀಕ್ಷಿತ ಸ್ವಭಾವವು ಒಂದು ದೊಡ್ಡ ಸವಾಲಾಗಿದೆ.

AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳ ಮೂಲಕ ರೋಬೋಟ್‌ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ Nvidia ಸಂಶೋಧಕರು ಮಾಡಿಕೊಟ್ಟಿದ್ದಾರೆ

Nvidia ಸಂಶೋಧಕರು AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ರೋಬೋಟ್‌ಗಳು ಸ್ವತಃ ತರಬೇತಿ ಪಡೆಯುವಂತೆ ಮಾಡಿದರು

ENPIRE ಮೂಲಕ ಮ್ಯಾನುಯಲ್ ಅಡಚಣೆಯನ್ನು ನಿವಾರಿಸುವುದು

ಸ್ವಾಯತ್ತ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್‌ಗಳು ಚಾತುರ್ಯವನ್ನು ಹೇಗೆ ಉತ್ತೇಜಿಸುತ್ತವೆ

Git-ಸಜ್ಜಿತ ರೋಬೋಟ್ ಫ್ಲೀಟ್ ಮೂಲಕ ವಿಸ್ತರಣೆ

ವಾಸ್ತವದ ಅಂತರ: Simulation vs. Hardware

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

AI ನ ಹೊಂದಾಣಿಕೆಯ ಸಾಮರ್ಥ್ಯವು ಜಾಗತಿಕ ಡೇಟಾ ಸೆಂಟರ್ ವಿದ್ಯುತ್ ಕೊರತೆಯನ್ನು ಹೇಗೆ ಪರಿಹರಿಸಬಹುದು

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁