AGI: আমরা কি সেখানে পৌঁছেছি?

আমরা এখনও AGI-তে পৌঁছাতে পারিনি।

এক বছর আগে, আমি প্রশ্ন করেছিলাম যে আমরা কি Artificial General Intelligence-এ পৌঁছেছি কি না। সেই সময়ে, OpenAI-এর o3 মডেল ARC-AGI-1 বেঞ্চমার্কে একটি বড় মাইলফলক স্পর্শ করেছিল। এটি reasoning-এ একটি প্রকৃত উন্নতি প্রদর্শন করেছিল।

কিন্তু আমি তখন যুক্তি দিয়েছিলাম যে এটি ছিল একটি বিরতিস্থল মাত্র, গন্তব্য নয়।

আমি সঠিক ছিলাম।

আজকের গল্পটি AGI-এর আগমন নিয়ে নয়। গল্পটি আরও বেশি আকর্ষণীয়। আমরা সাধারণ চ্যাটবট ছাড়িয়ে অনেক দূর এগিয়ে এসেছি। আমরা এখন frontier reasoning এবং agent systems-এর যুগে আছি।

এই ক্ষেত্রের বর্তমান অবস্থা নিচে দেওয়া হলো:

• মডেলগুলো reasoning এবং coding-এ অনেক বেশি উন্নত। • তারা টুলস ব্যবহার করতে পারে এবং দীর্ঘ context আরও কার্যকরভাবে প্রসেস করতে পারে। • তারা ছবি এবং অডিওর মতো multimodal ইনপুট হ্যান্ডেল করতে পারে। • তারা আগের চেয়ে অনেক বেশি অর্থনৈতিকভাবে উপযোগী।

কিন্তু তাদের এখনও মানুষের মতো বহুমুখিতা (generality) নেই।

বেঞ্চমার্কগুলোই প্রকৃত চিত্র তুলে ধরে। যদিও MMLU-এর মতো পুরনো পরীক্ষাগুলো এখন প্রায় পূর্ণতা পেয়েছে, নতুন পরীক্ষাগুলো ঘাটতিগুলো প্রকাশ করছে।

• ARC-AGI-1 ছিল reasoning-এর ক্ষেত্রে একটি যুগান্তকারী সাফল্য। • ARC-AGI-2 দেখায় যে novelty এবং composition এখনও অত্যন্ত কঠিন। • ARC-AGI-3 ইন্টারঅ্যাক্টিভ এনভায়রনমেন্টের দিকে নিয়ে যায় যেখানে মডেলগুলো মানিয়ে নিতে হিমশিম খায়।

আমরা মডেল স্কেলিং করার পদ্ধতিতে একটি পরিবর্তনও দেখতে পাচ্ছি। এটি এখন আর কেবল বেশি ডেটার বিষয় নয়। স্কেলিং এখন নিচের বিষয়গুলোর মাধ্যমে ঘটে:

  • Pretraining scale.
  • Post-training এবং reinforcement learning.
  • Inference-time reasoning এবং টুল ব্যবহার।

একটি মডেল যা বিরতি নিতে পারে, কোড চালাতে পারে এবং একটি পরিকল্পনা সংশোধন করতে পারে, তা কেবল পরবর্তী শব্দ অনুমান করা মডেল থেকে আলাদা। এটিই হলো agentic systems-এর উত্থান।

তবে, একটি বড় ঘাটতি রয়ে গেছে: নির্ভরযোগ্যতা (reliability)।

METR গবেষণা দেখায় যে নির্ভরযোগ্যভাবে কাজ সম্পন্ন করার সময়সীমা (time horizon) বাড়ছে। এটি প্রতি কয়েক মাসে দ্বিগুণ হচ্ছে। কিন্তু ৫০ মিনিটের কাজের সময়সীমা একটি পূর্ণ কর্মদিবস নয়। এটি এক সপ্তাহের স্বায়ত্তশাসিত গবেষণা নয়।

আমরা "উত্তর প্রদানকারী মডেল" থেকে "টুলস দিয়ে reasoning করতে সক্ষম মডেল"-এর দিকে এগিয়েছি।

আমরা অত্যন্ত সক্ষম সিস্টেম তৈরি করছি। কিন্তু এই সিস্টেমগুলো প্রায়শই বিস্তৃত কিন্তু ভঙ্গুর (brittle)। তারা গ্র্যাজুয়েট-স্তরের গণিত সমাধান করতে পারে কিন্তু সাধারণ ও নতুন ধাঁধায় ব্যর্থ হয়।

সৎ অবস্থানটি হলো এটি:

আমরা AGI-তে পৌঁছাইনি। কিন্তু আমরা অধিকাংশ মানুষের প্রত্যাশার চেয়ে অর্থনৈতিকভাবে বৈপ্লবিক (disruptive) কিছুর অনেক কাছাকাছি আছি।

আমরা সাধারণ উদ্দেশ্যে ব্যবহারের উপযোগী reasoning সিস্টেম তৈরি করছি। তারা আশ্চর্যজনকভাবে বুদ্ধিমান মনে হয়, তবুও তারা এমনভাবে ব্যর্থ হয় যা প্রমাণ করে যে তাদের প্রকৃত মানুষের মতো অভিযোজন ক্ষমতা (adaptability) নেই।

মাইলফলকটি বাস্তব ছিল। প্রচার বা হাইপ ছিল অতিরিক্ত। আসল কাজ এখন হলো robustness এবং autonomy তৈরি করা।

উৎস: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi