Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਲੈਣ ਦੇ ਯੋਗ ਬਣਾਇਆ

ਰੋਬੋਟਿਕਸ ਵਿੱਚ ਮੈਨੂਅਲ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਲਗਾਤਾਰ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਅੰਤ ਵਿੱਚ ਹੱਲ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਅਜਿਹੀ ਪ੍ਰਣਾਲੀ ਵਿਕਸਿਤ ਕੀਤੀ ਹੈ ਜਿੱਥੇ ਰੋਬੋਟ ਖੁਦ ਆਪਣਾ ਟ੍ਰੇਨਿੰਗ ਕੋਡ ਲਿਖ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਆਪਣੀ ਚੁਸਤੀ (dexterity) ਨੂੰ ਸੁਧਾਰ ਸਕਦੇ ਹਨ।

ENPIRE ਨਾਲ ਮੈਨੂਅਲ ਰੁਕਾਵਟਾਂ ਨੂੰ ਤੋੜਨਾ

ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ, ਰੋਬੋਟ ਨੂੰ ਚੁਸਤੀ ਨਾਲ ਚੀਜ਼ਾਂ ਫੜਨ (dexterous grasping) ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕੰਮ ਸਿਖਾਉਣ ਲਈ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਸੀਨ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨ, ਡੇਟਾ ਸੈੱਟ ਇਕੱਠੇ ਕਰਨ ਅਤੇ ਅਲਗੋਰਿਦਮਾਂ ਨੂੰ ਮੈਨੂਅਲ ਤੌਰ 'ਤੇ ਠੀਕ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਮਿਹਨਤ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਰੋਬੋਟਿਕ ਬੁੱਧੀ (robotic intelligence) ਦੇ ਵਿਸਤਾਰ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਰੁਕਾਵਟ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, Nvidia, Carnegie Mellon University, ਅਤੇ UC Berkeley ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ENPIRE ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਅਜਿਹਾ ਫਰੇਮਵਰਕ ਹੈ ਜੋ ਸਿਖਲਾਈ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਇੱਕ ਸਵੈ-ਰੱਖਿਅਤ ਫੀਡਬੈਕ ਲੂਪ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ।

ਮਨੁੱਖੀ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਬਜਾਏ, ENPIRE ਸਿਸਟਮ ਪੂਰੇ ਜੀਵਨ ਚੱਕਰ (lifecycle) ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: ਵਰਕਸਪੇਸ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨਾ, ਹਰਕਤ ਦੀ ਰਣਨੀਤੀ ਨੂੰ ਲਾਗੂ ਕਰਨਾ, ਨਤੀਜੇ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ, ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਤੁਰੰਤ ਕੋਡ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ। ਇਹ ਰੋਬੋਟਿਕਸ ਨੂੰ "human-in-the-loop" ਤੋਂ "agent-in-the-loop" ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।

ਸਵੈ-ਨਿਰਧਾਰਤ ਕੋਡਿੰਗ ਏਜੰਟ ਚੁਸਤੀ ਨੂੰ ਕਿਵੇਂ ਵਧਾਉਂਦੇ ਹਨ

ENPIRE ਫਰੇਮਵਰਕ ਦੋ ਵੱਖ-ਵੱਖ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ। ਪਹਿਲੇ ਪੜਾਅ ਵਿੱਚ, ਏਜੰਟ ਬਹੁਤ ਘੱਟ ਮਨੁੱਖੀ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਵਰਕਸਪੇਸ ਸਥਾਪਤ ਕਰਦਾ ਹੈ—ਅਕਸਰ ਸਿਰਫ਼ ਕੁਝ ਮਿੰਟਾਂ ਦਾ ਵੀਡੀਓ ਜੋ ਸਫਲ ਅਤੇ ਅਸਫਲ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਏਜੰਟ ਆਪਣੇ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ (reward functions) ਖੁਦ ਲਿਖਦਾ ਹੈ।

ਇਸ ਖੋਜ ਦੇ ਸਭ ਤੋਂ ਨਵੀਨਤਮ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਅੱਠ ਦੁਵੱਤੇ-ਹੱਥਾਂ ਵਾਲੇ YAM ਰੋਬੋਟ ਸਟੇਸ਼ਨਾਂ ਦੇ ਇੱਕ ਸਮੂਹ (fleet) ਦਾ ਤਾਲਮੇਲ ਹੈ। ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਦੀ ਬਜਾਏ, ਇਹ ਸਟੇਸ਼ਨ ਇੱਕ ਵੰਡਿਆ ਹੋਇਆ (distributed) ਖੋਜ ਸਮੂਹ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ Git ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਨਤੀਜੇ, ਸਫਲ "ਰੇਸਿਪੀਆਂ" (recipes), ਅਤੇ ਅਸਫਲ ਪਰਿਕਲਪਨਾਵਾਂ (hypotheses) ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ, ਜੋ ਕਿ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਮਿਆਰੀ ਵਰਜ਼ਨ ਕੰਟਰੋਲ ਟੂਲ ਹੈ।

ਇਹ ਫਲੀਟ-ਅਧਾਰਤ ਪਹੁੰਚ ਸਮੇਂ ਦੀ ਭਾਰੀ ਬਚਤ ਕਰਦੀ ਹੈ:

ਰੀਅਲਿਟੀ ਗੈਪ (Reality Gap): ਸਿਮੂਲੇਸ਼ਨ ਬਨਾਮ ਹਾਰਡਵੇਅਰ

ਇਨ੍ਹਾਂ ਕਾਮਯਾਬੀਆਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਖੋਜ "sim-to-real" ਪਾੜੇ (gap) ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਤਿੰਨਾਂ ਪਰਖੇ ਗਏ ਏਜੰਟਾਂ ਨੇ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ Push-T ਟੈਸਟ ਨੂੰ ਹੱਲ ਕਰ ਲਿਆ ਸੀ, ਪਰ ਰਗੜ (friction) ਅਤੇ ਰੋਬੋਟ ਡਾਇਨਾਮਿਕਸ ਵਰਗੇ ਅਨਿਸ਼ਚਿਤ ਵੇਰੀਏਬਲਜ਼ ਕਾਰਨ ਭੌਤਿਕ ਹਾਰਡਵੇਅਰ ਵਿੱਚ ਤਬਦੀਲ ਹੋਣ 'ਤੇ ਤਿੰਨ ਵਿੱਚੋਂ ਦੋ ਅਸਫਲ ਰਹੇ। ਹਾਲਾਂਕਿ, ENPIRE ਨੇ GR00T ਵਰਗੇ ਸਥਾਪਿਤ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ RoboCasa ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਉਦਯੋਗ ਜਨਰਲ-ਪਰਪਜ਼ ਰੋਬੋਟਿਕਸ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ, ਕੋਡ ਰਾਹੀਂ ਮਸ਼ੀਨਾਂ ਦੀ "ਸਵੈ-ਖੋਜ" (self-research) ਕਰਨ ਦੀ ਯੋਗਤਾ, ਸੀਮਤ, ਪਹਿਲਾਂ ਤੋਂ ਪ੍ਰੋਗਰਾਮ ਕੀਤੇ ਗਏ ਹਰਕਤਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਅਸਲ, ਅਨੁਕੂਲਣਸ਼ੀਲ ਬੁੱਧੀ (adaptable intelligence) ਵੱਲ ਵਧਣ ਦੀ ਕੁੰਜੀ ਹੋਵੇਗੀ।

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)