Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਯੋਗ ਬਣਾਇਆ

📅2 hours ago⏱3 min read

In this article

Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਲੈਣ ਦੇ ਯੋਗ ਬਣਾਇਆ

ਰੋਬੋਟਿਕਸ ਵਿੱਚ ਮੈਨੂਅਲ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਲਗਾਤਾਰ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਅੰਤ ਵਿੱਚ ਹੱਲ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਅਜਿਹੀ ਪ੍ਰਣਾਲੀ ਵਿਕਸਿਤ ਕੀਤੀ ਹੈ ਜਿੱਥੇ ਰੋਬੋਟ ਖੁਦ ਆਪਣਾ ਟ੍ਰੇਨਿੰਗ ਕੋਡ ਲਿਖ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਆਪਣੀ ਚੁਸਤੀ (dexterity) ਨੂੰ ਸੁਧਾਰ ਸਕਦੇ ਹਨ।

ENPIRE ਨਾਲ ਮੈਨੂਅਲ ਰੁਕਾਵਟਾਂ ਨੂੰ ਤੋੜਨਾ

ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ, ਰੋਬੋਟ ਨੂੰ ਚੁਸਤੀ ਨਾਲ ਚੀਜ਼ਾਂ ਫੜਨ (dexterous grasping) ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕੰਮ ਸਿਖਾਉਣ ਲਈ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਸੀਨ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨ, ਡੇਟਾ ਸੈੱਟ ਇਕੱਠੇ ਕਰਨ ਅਤੇ ਅਲਗੋਰਿਦਮਾਂ ਨੂੰ ਮੈਨੂਅਲ ਤੌਰ 'ਤੇ ਠੀਕ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਮਿਹਨਤ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਰੋਬੋਟਿਕ ਬੁੱਧੀ (robotic intelligence) ਦੇ ਵਿਸਤਾਰ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਰੁਕਾਵਟ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, Nvidia, Carnegie Mellon University, ਅਤੇ UC Berkeley ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ENPIRE ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਅਜਿਹਾ ਫਰੇਮਵਰਕ ਹੈ ਜੋ ਸਿਖਲਾਈ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਇੱਕ ਸਵੈ-ਰੱਖਿਅਤ ਫੀਡਬੈਕ ਲੂਪ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ।

ਮਨੁੱਖੀ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਬਜਾਏ, ENPIRE ਸਿਸਟਮ ਪੂਰੇ ਜੀਵਨ ਚੱਕਰ (lifecycle) ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: ਵਰਕਸਪੇਸ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨਾ, ਹਰਕਤ ਦੀ ਰਣਨੀਤੀ ਨੂੰ ਲਾਗੂ ਕਰਨਾ, ਨਤੀਜੇ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ, ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਤੁਰੰਤ ਕੋਡ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ। ਇਹ ਰੋਬੋਟਿਕਸ ਨੂੰ "human-in-the-loop" ਤੋਂ "agent-in-the-loop" ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।

ਸਵੈ-ਨਿਰਧਾਰਤ ਕੋਡਿੰਗ ਏਜੰਟ ਚੁਸਤੀ ਨੂੰ ਕਿਵੇਂ ਵਧਾਉਂਦੇ ਹਨ

ENPIRE ਫਰੇਮਵਰਕ ਦੋ ਵੱਖ-ਵੱਖ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ। ਪਹਿਲੇ ਪੜਾਅ ਵਿੱਚ, ਏਜੰਟ ਬਹੁਤ ਘੱਟ ਮਨੁੱਖੀ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਵਰਕਸਪੇਸ ਸਥਾਪਤ ਕਰਦਾ ਹੈ—ਅਕਸਰ ਸਿਰਫ਼ ਕੁਝ ਮਿੰਟਾਂ ਦਾ ਵੀਡੀਓ ਜੋ ਸਫਲ ਅਤੇ ਅਸਫਲ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਏਜੰਟ ਆਪਣੇ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ (reward functions) ਖੁਦ ਲਿਖਦਾ ਹੈ।

ਇਸ ਖੋਜ ਦੇ ਸਭ ਤੋਂ ਨਵੀਨਤਮ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਅੱਠ ਦੁਵੱਤੇ-ਹੱਥਾਂ ਵਾਲੇ YAM ਰੋਬੋਟ ਸਟੇਸ਼ਨਾਂ ਦੇ ਇੱਕ ਸਮੂਹ (fleet) ਦਾ ਤਾਲਮੇਲ ਹੈ। ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਦੀ ਬਜਾਏ, ਇਹ ਸਟੇਸ਼ਨ ਇੱਕ ਵੰਡਿਆ ਹੋਇਆ (distributed) ਖੋਜ ਸਮੂਹ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ Git ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਨਤੀਜੇ, ਸਫਲ "ਰੇਸਿਪੀਆਂ" (recipes), ਅਤੇ ਅਸਫਲ ਪਰਿਕਲਪਨਾਵਾਂ (hypotheses) ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ, ਜੋ ਕਿ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਮਿਆਰੀ ਵਰਜ਼ਨ ਕੰਟਰੋਲ ਟੂਲ ਹੈ।

ਇਹ ਫਲੀਟ-ਅਧਾਰਤ ਪਹੁੰਚ ਸਮੇਂ ਦੀ ਭਾਰੀ ਬਚਤ ਕਰਦੀ ਹੈ:

Push-T Test: ਇੱਕ ਤੋਂ ਅੱਠ ਏਜੰਟਾਂ ਤੱਕ ਵਧਾਉਣ ਨਾਲ ਕੰਮ ਪੂਰਾ ਕਰਨ ਦਾ ਸਮਾਂ ਪੰਜ ਘੰਟਿਆਂ ਤੋਂ ਘਟ ਕੇ ਸਿਰਫ਼ ਦੋ ਘੰਟੇ ਰਹਿ ਗਿਆ।
Pin Insertion: ਕੰਮ ਪੂਰਾ ਕਰਨ ਦਾ ਸਮਾਂ 90 ਮਿੰਟਾਂ ਤੋਂ ਵੱਧ ਤੋਂ ਘਟ ਕੇ ਲਗਭਗ 40 ਮਿੰਟ ਰਹਿ ਗਿਆ।
Success Rates: ਇਸ ਸਮੂਹ ਨੇ ਪਿੰਨਾਂ ਨੂੰ ਵੱਖ ਕਰਨ ਅਤੇ ਕੇਬਲ ਟਾਈਜ਼ ਨੂੰ ਕੱਟਣ ਸਮੇਤ ਚੁਣੌਤੀਪੂਰਨ ਕੰਮਾਂ ਵਿੱਚ 99% ਤੱਕ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।

ਰੀਅਲਿਟੀ ਗੈਪ (Reality Gap): ਸਿਮੂਲੇਸ਼ਨ ਬਨਾਮ ਹਾਰਡਵੇਅਰ

ਇਨ੍ਹਾਂ ਕਾਮਯਾਬੀਆਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਖੋਜ "sim-to-real" ਪਾੜੇ (gap) ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਤਿੰਨਾਂ ਪਰਖੇ ਗਏ ਏਜੰਟਾਂ ਨੇ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ Push-T ਟੈਸਟ ਨੂੰ ਹੱਲ ਕਰ ਲਿਆ ਸੀ, ਪਰ ਰਗੜ (friction) ਅਤੇ ਰੋਬੋਟ ਡਾਇਨਾਮਿਕਸ ਵਰਗੇ ਅਨਿਸ਼ਚਿਤ ਵੇਰੀਏਬਲਜ਼ ਕਾਰਨ ਭੌਤਿਕ ਹਾਰਡਵੇਅਰ ਵਿੱਚ ਤਬਦੀਲ ਹੋਣ 'ਤੇ ਤਿੰਨ ਵਿੱਚੋਂ ਦੋ ਅਸਫਲ ਰਹੇ। ਹਾਲਾਂਕਿ, ENPIRE ਨੇ GR00T ਵਰਗੇ ਸਥਾਪਿਤ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ RoboCasa ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਉਦਯੋਗ ਜਨਰਲ-ਪਰਪਜ਼ ਰੋਬੋਟਿਕਸ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ, ਕੋਡ ਰਾਹੀਂ ਮਸ਼ੀਨਾਂ ਦੀ "ਸਵੈ-ਖੋਜ" (self-research) ਕਰਨ ਦੀ ਯੋਗਤਾ, ਸੀਮਤ, ਪਹਿਲਾਂ ਤੋਂ ਪ੍ਰੋਗਰਾਮ ਕੀਤੇ ਗਏ ਹਰਕਤਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਅਸਲ, ਅਨੁਕੂਲਣਸ਼ੀਲ ਬੁੱਧੀ (adaptable intelligence) ਵੱਲ ਵਧਣ ਦੀ ਕੁੰਜੀ ਹੋਵੇਗੀ।

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)

Autonomous Iteration: ENPIRE ਰੋਬੋਟਾਂ ਨੂੰ ਆਪਣੇ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ (reward functions) ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਕੋਡ ਲਿਖਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸੀਨਾਂ ਨੂੰ ਰੀਸੈੱਟ ਕਰਨ ਜਾਂ ਐਲਗੋਰਿਦਮਾਂ ਨੂੰ ਸੋਧਣ ਲਈ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਲੋੜ ਕਾਫ਼ੀ ਘਟ ਜਾਂਦੀ ਹੈ।
Collaborative Learning: ਡੇਟਾ ਸਾਂਝਾ ਕਰਨ ਲਈ Git ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅੱਠ ਰੋਬੋਟਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਸਮੂਹਿਕ ਤੌਰ 'ਤੇ ਇੱਕ ਦੂਜੇ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਅਤੇ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਸਿੱਖ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਟ੍ਰੇਨਿੰਗ ਦੀ ਸਮਾਂ-ਸੀਮਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ।
Real-World Complexity: ਹਾਲਾਂਕਿ ਸਿਸਟਮ ਵਿਸ਼ੇਸ਼ ਕੰਮਾਂ 'ਤੇ 99% ਤੱਕ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਪਰ ਸਿਮੂਲੇਟਡ ਟ੍ਰੇਨਿੰਗ ਦੇ ਮੁਕਾਬਲੇ ਭੌਤਿਕ ਵਾਤਾਵਰਣ ਦੀ ਅਨਿਸ਼ਚਿਤ ਪ੍ਰਕਿਰਤੀ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ ਬਣੀ ਹੋਈ ਹੈ।

Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਯੋਗ ਬਣਾਇਆ

Nvidia ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਰੋਬੋਟਾਂ ਨੂੰ ਖੁਦ ਸਿਖਲਾਈ ਲੈਣ ਦੇ ਯੋਗ ਬਣਾਇਆ

ENPIRE ਨਾਲ ਮੈਨੂਅਲ ਰੁਕਾਵਟਾਂ ਨੂੰ ਤੋੜਨਾ

ਸਵੈ-ਨਿਰਧਾਰਤ ਕੋਡਿੰਗ ਏਜੰਟ ਚੁਸਤੀ ਨੂੰ ਕਿਵੇਂ ਵਧਾਉਂਦੇ ਹਨ

ਰੀਅਲਿਟੀ ਗੈਪ (Reality Gap): ਸਿਮੂਲੇਸ਼ਨ ਬਨਾਮ ਹਾਰਡਵੇਅਰ

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

How AI Flexibility Could Solve the Global Data Center Power Crunch

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁