Nvidia গবেষকরা AI কোডিং এজেন্ট ব্যবহার করে রোবটদের স্বয়ংক্রিয়ভাবে প্রশিক্ষণ দেওয়ার সক্ষমতা তৈরি করেছেন
রোবোটিক্সে ম্যানুয়াল ডেটা সংগ্রহ এবং ক্রমাগত মানুষের হস্তক্ষেপের যে বাধা ছিল, তা অবশেষে দূর করা হচ্ছে। AI কোডিং এজেন্ট ব্যবহার করে গবেষকরা এমন একটি সিস্টেম তৈরি করেছেন যেখানে রোবটগুলো স্বয়ংক্রিয়ভাবে তাদের নিজস্ব ট্রেনিং কোড লিখতে পারে এবং বাস্তব পরিবেশে তাদের নিপুণতা (dexterity) উন্নত করতে পারে।
ENPIRE-এর মাধ্যমে ম্যানুয়াল বাধার অবসান
প্রথাগতভাবে, একটি রোবটকে সূক্ষ্মভাবে কোনো কিছু ধরার (dexterous grasping) মতো জটিল কাজ শেখানোর জন্য মানব প্রকৌশলীদের দৃশ্যপট রিসেট করা, ডেটাসেট সংগ্রহ করা এবং ম্যানুয়ালি অ্যালগরিদম পরিবর্তন করার প্রয়োজন হয়। এই শ্রমসাধ্য প্রক্রিয়াটি রোবোটিক বুদ্ধিমত্তার প্রসারে একটি বড় বাধা হয়ে দাঁড়ায়। এটি সমাধানের জন্য Nvidia, Carnegie Mellon University এবং UC Berkeley-এর গবেষকরা ENPIRE প্রবর্তন করেছেন, যা একটি ফ্রেমওয়ার্ক হিসেবে ট্রেনিং প্রক্রিয়াটিকে একটি স্বয়ংসম্পূর্ণ ফিডব্যাক লুপে রূপান্তরিত করে।
মানুষের নির্দেশনার জন্য অপেক্ষা না করে, ENPIRE সিস্টেমটি পুরো লাইফসাইকেল পরিচালনা করতে AI কোডিং এজেন্ট ব্যবহার করে: ওয়ার্কস্পেস রিসেট করা, মুভমেন্ট স্ট্র্যাটেজি কার্যকর করা, ফলাফল মূল্যায়ন করা এবং পারফরম্যান্স উন্নত করার জন্য তাৎক্ষণিকভাবে কোডে পরিবর্তন আনা। এটি রোবোটিক্সকে "human-in-the-loop" থেকে "agent-in-the-loop"-এ নিয়ে যায়।
কীভাবে স্বয়ংক্রিয় কোডিং এজেন্ট নিপুণতা বৃদ্ধি করে
ENPIRE ফ্রেমওয়ার্কটি দুটি ভিন্ন ধাপে কাজ করে। প্রথম ধাপে, এজেন্টটি ন্যূনতম মানুষের নির্দেশনায় একটি ওয়ার্কস্পেস তৈরি করে—যা প্রায়শই সফল এবং ব্যর্থ প্রচেষ্টার মাত্র কয়েক মিনিটের ভিডিওর মাধ্যমে করা হয়। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এজেন্টটি নিজেই তার নিজস্ব রিওয়ার্ড ফাংশন (reward functions) লিখে ফেলে। উদাহরণস্বরূপ, পিন ইনসারশন (pin insertion) কাজের সময়, এজেন্টটি সফলতার মাত্রা নির্ধারণ করার জন্য ভিজ্যুয়াল অ্যালাইনমেন্ট, গ্রিপার উচ্চতা এবং আনুমানিক বলের (force) সমন্বয়ে একটি কাস্টম চেক তৈরি করেছিল।
দ্বিতীয় ধাপে, এজেন্টগুলো সম্পূর্ণ স্বায়ত্তশাসিতভাবে কাজ করে। তারা গবেষণাপত্র পড়ে, হাইপোথিসিস তৈরি করে এবং সরাসরি ট্রেনিং কোড এডিট করে। কোন পদ্ধতিটি বাস্তব জগতের ক্ষেত্রে আরও ভালো ফলাফল দেয়, তার ওপর ভিত্তি করে তারা behavior cloning (মানুষের নড়াচড়া অনুকরণ করা) বা reinforcement learning (চেষ্টা ও ভুল)-এর মতো পদ্ধতির মধ্যে যেকোনো একটি বেছে নিতে পারে। পরীক্ষার সময়, গবেষকরা Codex (GPT-5.5 সহ), Claude Code (Opus 4.7 সহ) এবং Kimi Code (Kimi K2.6 সহ)-এর মতো উচ্চ-ক্ষমতাসম্পন্ন মডেল ব্যবহার করেছিলেন, যেখানে Codex সেরা পারফর্মার হিসেবে আবির্ভূত হয়েছে।
Git-সক্ষম রোবট ফ্লিটের মাধ্যমে স্কেলিং
এই গবেষণার অন্যতম উদ্ভাবনী দিক হলো আটটি ডুয়াল-আর্ম YAM রোবট স্টেশনের একটি বহর পরিচালনা করা। বিচ্ছিন্নভাবে কাজ করার পরিবর্তে, এই স্টেশনগুলো একটি বিস্তৃত গবেষণা দল হিসেবে কাজ করে। তারা তাদের প্রাপ্ত ফলাফল, সফল "রেসিপি" এবং ব্যর্থ হাইপোথিসিসগুলো Git ব্যবহার করে শেয়ার করে, যা সফটওয়্যার ইঞ্জিনিয়ারিংয়ে ব্যবহৃত একটি স্ট্যান্ডার্ড ভার্সন কন্ট্রোল টুল।
এই বহর-ভিত্তিক পদ্ধতিটি বিশাল সময়ের সাশ্রয় ঘটায়:
- Push-T Test: এক থেকে আটটি এজেন্টে উন্নীত করার ফলে সম্পন্ন করার সময় পাঁচ ঘণ্টা থেকে কমে মাত্র দুই ঘণ্টায় নেমে এসেছে।
- Pin Insertion: কাজ সম্পন্ন করার সময় ৯০ মিনিটের বেশি থেকে কমে প্রায় ৪০ মিনিটে নেমে এসেছে।
- Success Rates: পিন বাছাই করা এবং কেবল টাই (cable ties) কাটার মতো কঠিন কাজগুলোতে এই বহর ৯৯% পর্যন্ত সাফল্য অর্জন করেছে।
রিয়েলিটি গ্যাপ: সিমুলেশন বনাম হার্ডওয়্যার
এই সাফল্য সত্ত্বেও, গবেষণাটি "sim-to-real" গ্যাপকে তুলে ধরে। যদিও পরীক্ষিত তিনটি এজেন্টই সিমুলেশনে Push-T টেস্ট সমাধান করতে পেরেছিল, কিন্তু ঘর্ষণ এবং রোবট ডায়নামিক্সের মতো অননুমেয় ভেরিয়েবলের কারণে বাস্তব হার্ডওয়্যারে স্থানান্তরের সময় তিনটির মধ্যে দুটি ব্যর্থ হয়েছে। তবে, GR00T-এর মতো প্রতিষ্ঠিত মডেলগুলোর তুলনায় RoboCasa সিমুলেশনে ENPIRE উন্নত পারফরম্যান্স প্রদর্শন করেছে।
শিল্পক্ষেত্রটি যখন সাধারণ-উদ্দেশ্যমূলক (general-purpose) রোবোটিক্সের দিকে এগিয়ে যাচ্ছে, তখন কোডের মাধ্যমে মেশিনের "self-research" বা স্বয়ংক্রিয়ভাবে গবেষণা করার ক্ষমতা সংকীর্ণ, পূর্ব-প্রোগ্রাম করা মোশন থেকে প্রকৃত এবং অভিযোজনযোগ্য বুদ্ধিমত্তার দিকে এগিয়ে যাওয়ার চাবিকাঠি হবে।
মূল বিষয়সমূহ
- Autonomous Iteration: ENPIRE রোবটগুলোকে তাদের নিজস্ব রিওয়ার্ড ফাংশন এবং ট্রেনিং কোড লিখতে দেয়, যা সিন (scene) রিসেট করা বা অ্যালগরিদম পরিবর্তনের জন্য মানব প্রকৌশলীদের প্রয়োজনীয়তা উল্লেখযোগ্যভাবে কমিয়ে দেয়।
- Collaborative Learning: ডেটা শেয়ার করার জন্য Git ব্যবহার করার মাধ্যমে, আটটি রোবটের একটি বহর সম্মিলিতভাবে একে অপরের সাফল্য এবং ব্যর্থতা থেকে শিখতে পারে, যা ট্রেনিংয়ের সময়সীমাকে নাটকীয়ভাবে ত্বরান্বিত করে।
- Real-World Complexity: যদিও সিস্টেমটি নির্দিষ্ট কিছু কাজে ৯৯% পর্যন্ত সাফল্য অর্জন করে, তবে সিমুলেটেড ট্রেনিংয়ের তুলনায় বাস্তব পরিবেশের অননুমেয় প্রকৃতি একটি বড় চ্যালেঞ্জ হিসেবে রয়ে গেছে।