এআই কোডিং এজেন্ট ব্যবহার করে রোবটদের স্বয়ংক্রিয় প্রশিক্ষণে সক্ষম হলেন এনভিডিয়া গবেষকরা

📅2 hours ago⏱3 min read

In this article

Nvidia গবেষকরা AI কোডিং এজেন্ট ব্যবহার করে রোবটদের স্বয়ংক্রিয়ভাবে প্রশিক্ষণ দেওয়ার সক্ষমতা তৈরি করেছেন

রোবোটিক্সে ম্যানুয়াল ডেটা সংগ্রহ এবং ক্রমাগত মানুষের হস্তক্ষেপের যে বাধা ছিল, তা অবশেষে দূর করা হচ্ছে। AI কোডিং এজেন্ট ব্যবহার করে গবেষকরা এমন একটি সিস্টেম তৈরি করেছেন যেখানে রোবটগুলো স্বয়ংক্রিয়ভাবে তাদের নিজস্ব ট্রেনিং কোড লিখতে পারে এবং বাস্তব পরিবেশে তাদের নিপুণতা (dexterity) উন্নত করতে পারে।

ENPIRE-এর মাধ্যমে ম্যানুয়াল বাধার অবসান

প্রথাগতভাবে, একটি রোবটকে সূক্ষ্মভাবে কোনো কিছু ধরার (dexterous grasping) মতো জটিল কাজ শেখানোর জন্য মানব প্রকৌশলীদের দৃশ্যপট রিসেট করা, ডেটাসেট সংগ্রহ করা এবং ম্যানুয়ালি অ্যালগরিদম পরিবর্তন করার প্রয়োজন হয়। এই শ্রমসাধ্য প্রক্রিয়াটি রোবোটিক বুদ্ধিমত্তার প্রসারে একটি বড় বাধা হয়ে দাঁড়ায়। এটি সমাধানের জন্য Nvidia, Carnegie Mellon University এবং UC Berkeley-এর গবেষকরা ENPIRE প্রবর্তন করেছেন, যা একটি ফ্রেমওয়ার্ক হিসেবে ট্রেনিং প্রক্রিয়াটিকে একটি স্বয়ংসম্পূর্ণ ফিডব্যাক লুপে রূপান্তরিত করে।

মানুষের নির্দেশনার জন্য অপেক্ষা না করে, ENPIRE সিস্টেমটি পুরো লাইফসাইকেল পরিচালনা করতে AI কোডিং এজেন্ট ব্যবহার করে: ওয়ার্কস্পেস রিসেট করা, মুভমেন্ট স্ট্র্যাটেজি কার্যকর করা, ফলাফল মূল্যায়ন করা এবং পারফরম্যান্স উন্নত করার জন্য তাৎক্ষণিকভাবে কোডে পরিবর্তন আনা। এটি রোবোটিক্সকে "human-in-the-loop" থেকে "agent-in-the-loop"-এ নিয়ে যায়।

কীভাবে স্বয়ংক্রিয় কোডিং এজেন্ট নিপুণতা বৃদ্ধি করে

ENPIRE ফ্রেমওয়ার্কটি দুটি ভিন্ন ধাপে কাজ করে। প্রথম ধাপে, এজেন্টটি ন্যূনতম মানুষের নির্দেশনায় একটি ওয়ার্কস্পেস তৈরি করে—যা প্রায়শই সফল এবং ব্যর্থ প্রচেষ্টার মাত্র কয়েক মিনিটের ভিডিওর মাধ্যমে করা হয়। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এজেন্টটি নিজেই তার নিজস্ব রিওয়ার্ড ফাংশন (reward functions) লিখে ফেলে। উদাহরণস্বরূপ, পিন ইনসারশন (pin insertion) কাজের সময়, এজেন্টটি সফলতার মাত্রা নির্ধারণ করার জন্য ভিজ্যুয়াল অ্যালাইনমেন্ট, গ্রিপার উচ্চতা এবং আনুমানিক বলের (force) সমন্বয়ে একটি কাস্টম চেক তৈরি করেছিল।

দ্বিতীয় ধাপে, এজেন্টগুলো সম্পূর্ণ স্বায়ত্তশাসিতভাবে কাজ করে। তারা গবেষণাপত্র পড়ে, হাইপোথিসিস তৈরি করে এবং সরাসরি ট্রেনিং কোড এডিট করে। কোন পদ্ধতিটি বাস্তব জগতের ক্ষেত্রে আরও ভালো ফলাফল দেয়, তার ওপর ভিত্তি করে তারা behavior cloning (মানুষের নড়াচড়া অনুকরণ করা) বা reinforcement learning (চেষ্টা ও ভুল)-এর মতো পদ্ধতির মধ্যে যেকোনো একটি বেছে নিতে পারে। পরীক্ষার সময়, গবেষকরা Codex (GPT-5.5 সহ), Claude Code (Opus 4.7 সহ) এবং Kimi Code (Kimi K2.6 সহ)-এর মতো উচ্চ-ক্ষমতাসম্পন্ন মডেল ব্যবহার করেছিলেন, যেখানে Codex সেরা পারফর্মার হিসেবে আবির্ভূত হয়েছে।

Git-সক্ষম রোবট ফ্লিটের মাধ্যমে স্কেলিং

এই গবেষণার অন্যতম উদ্ভাবনী দিক হলো আটটি ডুয়াল-আর্ম YAM রোবট স্টেশনের একটি বহর পরিচালনা করা। বিচ্ছিন্নভাবে কাজ করার পরিবর্তে, এই স্টেশনগুলো একটি বিস্তৃত গবেষণা দল হিসেবে কাজ করে। তারা তাদের প্রাপ্ত ফলাফল, সফল "রেসিপি" এবং ব্যর্থ হাইপোথিসিসগুলো Git ব্যবহার করে শেয়ার করে, যা সফটওয়্যার ইঞ্জিনিয়ারিংয়ে ব্যবহৃত একটি স্ট্যান্ডার্ড ভার্সন কন্ট্রোল টুল।

এই বহর-ভিত্তিক পদ্ধতিটি বিশাল সময়ের সাশ্রয় ঘটায়:

Push-T Test: এক থেকে আটটি এজেন্টে উন্নীত করার ফলে সম্পন্ন করার সময় পাঁচ ঘণ্টা থেকে কমে মাত্র দুই ঘণ্টায় নেমে এসেছে।
Pin Insertion: কাজ সম্পন্ন করার সময় ৯০ মিনিটের বেশি থেকে কমে প্রায় ৪০ মিনিটে নেমে এসেছে।
Success Rates: পিন বাছাই করা এবং কেবল টাই (cable ties) কাটার মতো কঠিন কাজগুলোতে এই বহর ৯৯% পর্যন্ত সাফল্য অর্জন করেছে।

রিয়েলিটি গ্যাপ: সিমুলেশন বনাম হার্ডওয়্যার

এই সাফল্য সত্ত্বেও, গবেষণাটি "sim-to-real" গ্যাপকে তুলে ধরে। যদিও পরীক্ষিত তিনটি এজেন্টই সিমুলেশনে Push-T টেস্ট সমাধান করতে পেরেছিল, কিন্তু ঘর্ষণ এবং রোবট ডায়নামিক্সের মতো অননুমেয় ভেরিয়েবলের কারণে বাস্তব হার্ডওয়্যারে স্থানান্তরের সময় তিনটির মধ্যে দুটি ব্যর্থ হয়েছে। তবে, GR00T-এর মতো প্রতিষ্ঠিত মডেলগুলোর তুলনায় RoboCasa সিমুলেশনে ENPIRE উন্নত পারফরম্যান্স প্রদর্শন করেছে।

শিল্পক্ষেত্রটি যখন সাধারণ-উদ্দেশ্যমূলক (general-purpose) রোবোটিক্সের দিকে এগিয়ে যাচ্ছে, তখন কোডের মাধ্যমে মেশিনের "self-research" বা স্বয়ংক্রিয়ভাবে গবেষণা করার ক্ষমতা সংকীর্ণ, পূর্ব-প্রোগ্রাম করা মোশন থেকে প্রকৃত এবং অভিযোজনযোগ্য বুদ্ধিমত্তার দিকে এগিয়ে যাওয়ার চাবিকাঠি হবে।

মূল বিষয়সমূহ

Autonomous Iteration: ENPIRE রোবটগুলোকে তাদের নিজস্ব রিওয়ার্ড ফাংশন এবং ট্রেনিং কোড লিখতে দেয়, যা সিন (scene) রিসেট করা বা অ্যালগরিদম পরিবর্তনের জন্য মানব প্রকৌশলীদের প্রয়োজনীয়তা উল্লেখযোগ্যভাবে কমিয়ে দেয়।
Collaborative Learning: ডেটা শেয়ার করার জন্য Git ব্যবহার করার মাধ্যমে, আটটি রোবটের একটি বহর সম্মিলিতভাবে একে অপরের সাফল্য এবং ব্যর্থতা থেকে শিখতে পারে, যা ট্রেনিংয়ের সময়সীমাকে নাটকীয়ভাবে ত্বরান্বিত করে।
Real-World Complexity: যদিও সিস্টেমটি নির্দিষ্ট কিছু কাজে ৯৯% পর্যন্ত সাফল্য অর্জন করে, তবে সিমুলেটেড ট্রেনিংয়ের তুলনায় বাস্তব পরিবেশের অননুমেয় প্রকৃতি একটি বড় চ্যালেঞ্জ হিসেবে রয়ে গেছে।

এআই কোডিং এজেন্ট ব্যবহার করে রোবটদের স্বয়ংক্রিয় প্রশিক্ষণে সক্ষম হলেন এনভিডিয়া গবেষকরা

Nvidia গবেষকরা AI কোডিং এজেন্ট ব্যবহার করে রোবটদের স্বয়ংক্রিয়ভাবে প্রশিক্ষণ দেওয়ার সক্ষমতা তৈরি করেছেন

ENPIRE-এর মাধ্যমে ম্যানুয়াল বাধার অবসান

কীভাবে স্বয়ংক্রিয় কোডিং এজেন্ট নিপুণতা বৃদ্ধি করে

Git-সক্ষম রোবট ফ্লিটের মাধ্যমে স্কেলিং

রিয়েলিটি গ্যাপ: সিমুলেশন বনাম হার্ডওয়্যার

মূল বিষয়সমূহ

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

এজেন্টিক এআই গভর্নেন্স ফ্রেমওয়ার্ক

এআই আত্ম-প্রতিফলন

এআই নমনীয়তা কীভাবে বিশ্বব্যাপী ডেটা সেন্টারের বিদ্যুৎ সংকট সমাধান করতে পারে

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁