Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਲੈਣ ਦੇ ਯੋਗ ਬਣਾਇਆ
ਰੋਬੋਟਿਕਸ ਵਿੱਚ ਮੈਨੂਅਲ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਲਗਾਤਾਰ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਅੰਤ ਵਿੱਚ ਹੱਲ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਅਜਿਹੀ ਪ੍ਰਣਾਲੀ ਵਿਕਸਿਤ ਕੀਤੀ ਹੈ ਜਿੱਥੇ ਰੋਬੋਟ ਖੁਦ ਆਪਣਾ ਟ੍ਰੇਨਿੰਗ ਕੋਡ ਲਿਖ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਆਪਣੀ ਚੁਸਤੀ (dexterity) ਨੂੰ ਸੁਧਾਰ ਸਕਦੇ ਹਨ।
ENPIRE ਨਾਲ ਮੈਨੂਅਲ ਰੁਕਾਵਟਾਂ ਨੂੰ ਤੋੜਨਾ
ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ, ਰੋਬੋਟ ਨੂੰ ਚੁਸਤੀ ਨਾਲ ਚੀਜ਼ਾਂ ਫੜਨ (dexterous grasping) ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕੰਮ ਸਿਖਾਉਣ ਲਈ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਸੀਨ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨ, ਡੇਟਾ ਸੈੱਟ ਇਕੱਠੇ ਕਰਨ ਅਤੇ ਅਲਗੋਰਿਦਮਾਂ ਨੂੰ ਮੈਨੂਅਲ ਤੌਰ 'ਤੇ ਠੀਕ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਮਿਹਨਤ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਰੋਬੋਟਿਕ ਬੁੱਧੀ (robotic intelligence) ਦੇ ਵਿਸਤਾਰ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਰੁਕਾਵਟ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, Nvidia, Carnegie Mellon University, ਅਤੇ UC Berkeley ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ENPIRE ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਅਜਿਹਾ ਫਰੇਮਵਰਕ ਹੈ ਜੋ ਸਿਖਲਾਈ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਇੱਕ ਸਵੈ-ਰੱਖਿਅਤ ਫੀਡਬੈਕ ਲੂਪ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ।
ਮਨੁੱਖੀ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਬਜਾਏ, ENPIRE ਸਿਸਟਮ ਪੂਰੇ ਜੀਵਨ ਚੱਕਰ (lifecycle) ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: ਵਰਕਸਪੇਸ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨਾ, ਹਰਕਤ ਦੀ ਰਣਨੀਤੀ ਨੂੰ ਲਾਗੂ ਕਰਨਾ, ਨਤੀਜੇ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ, ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਤੁਰੰਤ ਕੋਡ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ। ਇਹ ਰੋਬੋਟਿਕਸ ਨੂੰ "human-in-the-loop" ਤੋਂ "agent-in-the-loop" ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।
ਸਵੈ-ਨਿਰਧਾਰਤ ਕੋਡਿੰਗ ਏਜੰਟ ਚੁਸਤੀ ਨੂੰ ਕਿਵੇਂ ਵਧਾਉਂਦੇ ਹਨ
ENPIRE ਫਰੇਮਵਰਕ ਦੋ ਵੱਖ-ਵੱਖ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ। ਪਹਿਲੇ ਪੜਾਅ ਵਿੱਚ, ਏਜੰਟ ਬਹੁਤ ਘੱਟ ਮਨੁੱਖੀ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਵਰਕਸਪੇਸ ਸਥਾਪਤ ਕਰਦਾ ਹੈ—ਅਕਸਰ ਸਿਰਫ਼ ਕੁਝ ਮਿੰਟਾਂ ਦਾ ਵੀਡੀਓ ਜੋ ਸਫਲ ਅਤੇ ਅਸਫਲ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਏਜੰਟ ਆਪਣੇ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ (reward functions) ਖੁਦ ਲਿਖਦਾ ਹੈ।
ਇਸ ਖੋਜ ਦੇ ਸਭ ਤੋਂ ਨਵੀਨਤਮ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਅੱਠ ਦੁਵੱਤੇ-ਹੱਥਾਂ ਵਾਲੇ YAM ਰੋਬੋਟ ਸਟੇਸ਼ਨਾਂ ਦੇ ਇੱਕ ਸਮੂਹ (fleet) ਦਾ ਤਾਲਮੇਲ ਹੈ। ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਦੀ ਬਜਾਏ, ਇਹ ਸਟੇਸ਼ਨ ਇੱਕ ਵੰਡਿਆ ਹੋਇਆ (distributed) ਖੋਜ ਸਮੂਹ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ Git ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਨਤੀਜੇ, ਸਫਲ "ਰੇਸਿਪੀਆਂ" (recipes), ਅਤੇ ਅਸਫਲ ਪਰਿਕਲਪਨਾਵਾਂ (hypotheses) ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ, ਜੋ ਕਿ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਮਿਆਰੀ ਵਰਜ਼ਨ ਕੰਟਰੋਲ ਟੂਲ ਹੈ।
ਇਹ ਫਲੀਟ-ਅਧਾਰਤ ਪਹੁੰਚ ਸਮੇਂ ਦੀ ਭਾਰੀ ਬਚਤ ਕਰਦੀ ਹੈ:
- Push-T Test: ਇੱਕ ਤੋਂ ਅੱਠ ਏਜੰਟਾਂ ਤੱਕ ਵਧਾਉਣ ਨਾਲ ਕੰਮ ਪੂਰਾ ਕਰਨ ਦਾ ਸਮਾਂ ਪੰਜ ਘੰਟਿਆਂ ਤੋਂ ਘਟ ਕੇ ਸਿਰਫ਼ ਦੋ ਘੰਟੇ ਰਹਿ ਗਿਆ।
- Pin Insertion: ਕੰਮ ਪੂਰਾ ਕਰਨ ਦਾ ਸਮਾਂ 90 ਮਿੰਟਾਂ ਤੋਂ ਵੱਧ ਤੋਂ ਘਟ ਕੇ ਲਗਭਗ 40 ਮਿੰਟ ਰਹਿ ਗਿਆ।
- Success Rates: ਇਸ ਸਮੂਹ ਨੇ ਪਿੰਨਾਂ ਨੂੰ ਵੱਖ ਕਰਨ ਅਤੇ ਕੇਬਲ ਟਾਈਜ਼ ਨੂੰ ਕੱਟਣ ਸਮੇਤ ਚੁਣੌਤੀਪੂਰਨ ਕੰਮਾਂ ਵਿੱਚ 99% ਤੱਕ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।
ਰੀਅਲਿਟੀ ਗੈਪ (Reality Gap): ਸਿਮੂਲੇਸ਼ਨ ਬਨਾਮ ਹਾਰਡਵੇਅਰ
ਇਨ੍ਹਾਂ ਕਾਮਯਾਬੀਆਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਖੋਜ "sim-to-real" ਪਾੜੇ (gap) ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਤਿੰਨਾਂ ਪਰਖੇ ਗਏ ਏਜੰਟਾਂ ਨੇ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ Push-T ਟੈਸਟ ਨੂੰ ਹੱਲ ਕਰ ਲਿਆ ਸੀ, ਪਰ ਰਗੜ (friction) ਅਤੇ ਰੋਬੋਟ ਡਾਇਨਾਮਿਕਸ ਵਰਗੇ ਅਨਿਸ਼ਚਿਤ ਵੇਰੀਏਬਲਜ਼ ਕਾਰਨ ਭੌਤਿਕ ਹਾਰਡਵੇਅਰ ਵਿੱਚ ਤਬਦੀਲ ਹੋਣ 'ਤੇ ਤਿੰਨ ਵਿੱਚੋਂ ਦੋ ਅਸਫਲ ਰਹੇ। ਹਾਲਾਂਕਿ, ENPIRE ਨੇ GR00T ਵਰਗੇ ਸਥਾਪਿਤ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ RoboCasa ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ।
ਜਿਵੇਂ-ਜਿਵੇਂ ਉਦਯੋਗ ਜਨਰਲ-ਪਰਪਜ਼ ਰੋਬੋਟਿਕਸ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ, ਕੋਡ ਰਾਹੀਂ ਮਸ਼ੀਨਾਂ ਦੀ "ਸਵੈ-ਖੋਜ" (self-research) ਕਰਨ ਦੀ ਯੋਗਤਾ, ਸੀਮਤ, ਪਹਿਲਾਂ ਤੋਂ ਪ੍ਰੋਗਰਾਮ ਕੀਤੇ ਗਏ ਹਰਕਤਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਅਸਲ, ਅਨੁਕੂਲਣਸ਼ੀਲ ਬੁੱਧੀ (adaptable intelligence) ਵੱਲ ਵਧਣ ਦੀ ਕੁੰਜੀ ਹੋਵੇਗੀ।
ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)
- Autonomous Iteration: ENPIRE ਰੋਬੋਟਾਂ ਨੂੰ ਆਪਣੇ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ (reward functions) ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਕੋਡ ਲਿਖਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸੀਨਾਂ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨ ਜਾਂ ਐਲਗੋਰਿਦਮਾਂ ਨੂੰ ਸੋਧਣ ਲਈ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਲੋੜ ਕਾਫ਼ੀ ਘਟ ਜਾਂਦੀ ਹੈ।
- Collaborative Learning: ਡੇਟਾ ਸਾਂਝਾ ਕਰਨ ਲਈ Git ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅੱਠ ਰੋਬੋਟਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਸਮੂਹਿਕ ਤੌਰ 'ਤੇ ਇੱਕ ਦੂਜੇ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਅਤੇ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਸਿੱਖ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਟ੍ਰੇਨਿੰਗ ਦੀ ਸਮਾਂ-ਸੀਮਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ।
- Real-World Complexity: ਹਾਲਾਂਕਿ ਸਿਸਟਮ ਵਿਸ਼ੇਸ਼ ਕੰਮਾਂ 'ਤੇ 99% ਤੱਕ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਪਰ ਸਿਮੂਲੇਟਡ ਟ੍ਰੇਨਿੰਗ ਦੇ ਮੁਕਾਬਲੇ ਭੌਤਿਕ ਵਾਤਾਵਰਣ ਦੀ ਅਨਿਸ਼ਚਿਤ ਪ੍ਰਕਿਰਤੀ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ ਬਣੀ ਹੋਈ ਹੈ।