কীভাবে General Intuition বাস্তব জগতের AI তৈরির জন্য ভিডিও গেম ব্যবহার করছে
General Intuition বিশাল ভিডিও গেম ডেটাসেট ব্যবহার করে বাস্তব জগতের জন্য এজেন্টিক মডেল (agentic models) প্রশিক্ষিত করার মাধ্যমে রোবোটিক্সে একটি বিশাল প্যারাডাইম শিফট বা মৌলিক পরিবর্তনের চেষ্টা করছে। নতুন $৩২০ মিলিয়ন ফান্ডিং রাউন্ডের মাধ্যমে, স্টার্টআপটি বাজি ধরছে যে গেমিংয়ে পাওয়া "অ্যাকশন ডেটা" (action data) হলো কৃত্রিম বুদ্ধিমত্তার জন্য সেই হারিয়ে যাওয়া সংযোগকারী লিঙ্ক।
অ্যাকশন লেবেল এবং স্পেশাল-টেম্পোরাল রিজনিংয়ের শক্তি
যদিও অনেক AI গবেষক কেবল ভিডিও ফুটেজ পর্যবেক্ষণের মাধ্যমে মডেল প্রশিক্ষণের চেষ্টা করেন, General Intuition-এর CEO Pim de Witte যুক্তি দেন যে শুধুমাত্র ভিডিও যথেষ্ট নয়। কোম্পানির প্রতিযোগিতামূলক সুবিধা হলো Medal থেকে প্রাপ্ত নিজস্ব ডেটা ব্যবহারের ক্ষমতা, যা এমন একটি প্ল্যাটফর্ম যেখানে ব্যবহারকারীরা ভিডিও গেমের ক্লিপ শেয়ার করেন।
সাধারণ ভিডিওর বিপরীতে, এই ক্লিপগুলোতে এমবেডেড "অ্যাকশন লেবেল" (action labels) থাকে—অর্থাৎ একজন খেলোয়াড় কোন বাটন কখন চেপেছেন তার সুনির্দিষ্ট রেকর্ড। এটি মডেলটিকে কেবল প্যাটার্ন রিকগনিশনের ঊর্ধ্বে নিয়ে যায়; এটি স্পেশাল-টেম্পোরাল রিজনিং (spatial-temporal reasoning) শিখতে পারে। একটি নির্দিষ্ট ইনপুট (একটি অ্যাকশন) এবং পরিবেশের ফলে সৃষ্ট পরিবর্তনের (একটি রিঅ্যাকশন) মধ্যে সরাসরি সম্পর্ক বোঝার মাধ্যমে, AI কার্যকারণ সম্পর্ক বা কজালিটি (causality) বুঝতে শুরু করে। এটি মডেলটিকে "self" বা "স্বয়ং" এবং "environment" বা "পরিবেশ"-এর মধ্যে পার্থক্য করতে সক্ষম করে, যা যেকোনো স্বায়ত্তশাসিত এজেন্টের (autonomous agent) জন্য একটি মৌলিক প্রয়োজনীয়তা।
Fortnite থেকে কোয়াড্রুপেড রোবট পর্যন্ত
কোম্পানির প্রযুক্তিগত লক্ষ্য হলো এমন একটি একক মডেল তৈরি করা যা বিভিন্ন ডোমেইন যেমন: গেমপ্লে, সিমুলেশন এবং ফিজিক্যাল এমবডিমেন্টের (physical embodiment) ক্ষেত্রে কাজ করতে পারে। সাম্প্রতিক প্রদর্শনীতে দেখা গেছে, গেমপ্লেতে প্রশিক্ষিত একটি AI এজেন্ট জটিল ভার্চুয়াল পরিবেশে চলাফেরা করতে সক্ষম হয়েছে এবং এটি বুঝতে পেরেছে যে দেয়ালগুলো কঠিন বস্তু এবং সূর্যের গতির সাথে ছায়া পরিবর্তিত হয়।
সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এই "মস্তিষ্ক" সরাসরি হার্ডওয়্যারে স্থানান্তর করা হচ্ছে। কোম্পানিটি একটি কোয়াড্রুপেডাল (চার পায়ের) রোবট প্রদর্শন করেছে যা তাদের গেমিং এজেন্টদের চালিত করা একই মডেল ব্যবহার করে। উল্লেখযোগ্যভাবে, দলটি জানিয়েছে যে রোবটের নেভিগেশনের জন্য মডেলটিকে ফাইন-টিউন করতে বাস্তব রাস্তা থেকে সংগৃহীত মাত্র আট মিনিটের রিয়েল-ওয়ার্ল্ড রোবোটিক্স ডেটা প্রয়োজন হয়েছে। এটি নির্দেশ করে যে পদার্থবিজ্ঞান এবং স্থানিক সচেতনতা (spatial awareness) শেখার কঠিন কাজটি ভিডিও গেমের "জিম"-এ সম্পন্ন হচ্ছে, যা বাস্তব জগতে এর প্রয়োগকে অনেক বেশি দক্ষ করে তুলছে।
জেনারেল এজেন্টদের ওপর $২.৩ বিলিয়ন ডলারের বাজি
এই উচ্চাকাঙ্ক্ষার ব্যাপকতা কোম্পানির ভ্যালুয়েশনে প্রতিফলিত হয়েছে। General Intuition সম্প্রতি $২.৩ বিলিয়ন ভ্যালুয়েশনে $৩২০ মিলিয়ন সংগ্রহ করেছে, যার ফলে তাদের মোট প্রকাশ্য ফান্ডিং হয়েছে $৪৫৪ মিলিয়ন। এই রাউন্ডটি Khosla Ventures-এর নেতৃত্বে পরিচালিত হয়েছে এবং এতে General Catalyst, Jeff Bezos, Eric Schmidt এবং Google DeepMind ও MIT-এর গবেষকদের উল্লেখযোগ্য অংশগ্রহণ রয়েছে।
এই মূলধন দুটি প্রাথমিক লক্ষ্যের জন্য বরাদ্দ করা হয়েছে: CoreWeave-এর সাথে অংশীদারিত্বের মাধ্যমে কম্পিউট ক্ষমতা বৃদ্ধি করা এবং গ্রীষ্মের শেষের দিকে তাদের API আরও ব্যাপকভাবে সহজলভ্য করা। Vinod Khosla-এর মতো বিনিয়োগকারীদের কাছে লক্ষ্যটি কেবল উন্নত অটোমেশন নয়, বরং "AI intuition" বা "AI অন্তর্দৃষ্টির" উদ্ভব ঘটানো—যা কেবল প্রোগ্রাম করা নির্দেশাবলী অনুসরণ করার পরিবর্তে বোঝার মাধ্যমে বিশ্বকে নেভিগেট করার একটি মানুষের মতো ক্ষমতা।
মূল বিষয়সমূহ
- অ্যাকশন-চালিত প্রশিক্ষণ: General Intuition গেমিং ক্লিপ থেকে বাটন-প্রেসিং "অ্যাকশন লেবেল" ব্যবহার করে AI-কে কার্যকারণ সম্পর্ক (causality) শেখায়, যা শুধুমাত্র ভিডিও-ভিত্তিক প্রশিক্ষণের সীমাবদ্ধতা অতিক্রম করে।
- স্কেলেবল সিমুলেশন: ভিডিও গেমকে একটি "জিম" হিসেবে ব্যবহার করে, কোম্পানিটি বাস্তব জগতের রোবোটিক্স ডেটা সংগ্রহের বিশাল খরচ ছাড়াই জটিল স্পেশাল-টেম্পোরাল রিজনিং প্রশিক্ষণ দিতে পারে।
- বিশাল প্রাতিষ্ঠানিক সমর্থন: $২.৩ বিলিয়ন ভ্যালুয়েশন এবং Jeff Bezos ও Eric Schmidt-এর মতো ব্যক্তিত্বদের সমর্থন নিয়ে কোম্পানিটি ওয়ার্ল্ড মডেল (world model) যুগে নিজেকে একটি মৌলিক খেলোয়াড় হিসেবে প্রতিষ্ঠিত করছে।
