মাত্র তিনটি AI মডেল ৫০০ দিনের স্টার্টআপ সিমুলেশন থেকে টিকে থাকতে পেরেছে

বর্তমান AI এজেন্টরা নির্দিষ্ট কিছু কাজে পারদর্শী হলেও, একটি ব্যবসা পরিচালনার জন্য প্রয়োজনীয় জটিল এবং দীর্ঘমেয়াদী কৌশলগত চিন্তাভাবনার ক্ষেত্রে তারা হিমশিম খায়। CEO-Bench নামক একটি নতুন বেঞ্চমার্ক প্রকাশ করেছে যে, বেশিরভাগ লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) ৫০০টি সিমুলেটেড দিনের মধ্যে দেউলিয়া হয়ে গেলেও, হাতেগোনা কয়েকটি মডেল "steering intelligence" বা দিকনির্দেশনামূলক বুদ্ধিমত্তার লক্ষণ দেখাতে শুরু করেছে।

CEO-Bench-এর পরিচিতি: কৌশলগত বুদ্ধিমত্তার চূড়ান্ত পরীক্ষা

গবেষকরা সাধারণ প্রম্পটিং টেস্টের গণ্ডি পেরিয়ে CEO-Bench তৈরি করেছেন, যা একটি এজেন্টের দীর্ঘমেয়াদী লক্ষ্যের দিকে একটি পুরো প্রতিষ্ঠানকে পরিচালিত করার ক্ষমতা পরিমাপ করার জন্য ডিজাইন করা একটি কঠোর সিমুলেশন। এই বেঞ্চমার্কে, একটি AI এজেন্ট "NovaMind" নামক একটি কাল্পনিক সাবস্ক্রিপশন সফটওয়্যার কোম্পানির নিয়ন্ত্রণ গ্রহণ করে, যার শুরুতে থাকে $1 মিলিয়ন মূলধন এবং শূন্য গ্রাহক।

এই পরিবেশটি বাস্তব জগতের অস্থিরতাকে অনুকরণ করার জন্য তৈরি করা হয়েছে। এজেন্টরা একটি Python API-এর সাথে কাজ করে যাতে ৩৪টি টুল এবং ১৯টি টেবিলের একটি ডেটাবেস রয়েছে; সিদ্ধান্ত নেওয়ার জন্য তাদের কাস্টম কোড এবং SQL কুয়েরি লিখতে হয়। এখানে ঝুঁকি অনেক বেশি: ৫০০ দিনের এই সময়ের মধ্যে যদি কোম্পানির নগদ ব্যালেন্স কোনো মূহুর্তে শূন্যের নিচে নেমে যায়, তবে সিমুলেশনটি দেউলিয়া হয়ে শেষ হয়ে যায়।

এর জটিলতা তৈরি হয় বিলম্বিত ফিডব্যাক লুপ থেকে। টাস্ক-ওরিয়েন্টেড এজেন্টদের তুলনায় একজন CEO-কে R&D টাইমলাইন, মার্কেটের চক্র এবং পরিবর্তনশীল গ্রাহকের প্রত্যাশা সামলাতে হয়। ১০ম দিনে নেওয়া সিদ্ধান্তগুলো—যেমন বিজ্ঞাপনের খরচ বা প্রাইসিং টিয়ার—হতে পারে গ্রাহক বৃদ্ধি বা নগদ প্রবাহে কয়েক সপ্তাহ পর দৃশ্যমান ফলাফল দেখায়।

দেউলিয়া হওয়ার সংকট: কেন বেশিরভাগ মডেল ব্যর্থ হয়

১৪টি মডেলের পরীক্ষার ফলাফল ছিল হতাশাজনক। যদিও বেশিরভাগ মডেল মৌলিক কমান্ডগুলো কার্যকর করতে পারত, কিন্তু টিকে থাকার জন্য প্রয়োজনীয় সুসংগত দীর্ঘমেয়াদী কৌশলের অভাব ছিল তাদের। অধিকাংশ এজেন্ট বাজারের অনিশ্চয়তা কাটিয়ে উঠতে ব্যর্থ হয়েছে এবং ৫০০ দিন পূর্ণ হওয়ার আগেই দেউলিয়া হয়ে গেছে।

একটি চমকপ্রদ তুলনামূলক বিশ্লেষণে দেখা গেছে, একটি সাধারণ রুল-বেসড হিউরিস্টিক—একটি নন-AI প্রোগ্রাম যা নির্দিষ্ট প্রাইসিং এবং মৌলিক সক্ষমতা সমন্বয় ব্যবহার করে—$15.76 মিলিয়ন পর্যন্ত পৌঁছেছে। এটি পরীক্ষা করা প্রায় প্রতিটি LLM-কে ছাড়িয়ে গেছে, যা প্রমাণ করে যে দিকনির্দেশনা ছাড়া "বুদ্ধিমত্তা" প্রায়শই একটি সাধারণ ও সুশৃঙ্খল ব্যবসায়িক পরিকল্পনার চেয়ে নিকৃষ্ট।

সেরা তিনটি: Claude এবং GPT সবার শীর্ষে

মাত্র তিনটি মডেল তাদের প্রাথমিক $1 মিলিয়নের বেশি মূলধন নিয়ে সিমুলেশন শেষ করতে সক্ষম হয়েছে। এই মডেলগুলো লুকানো তথ্য উন্মোচন এবং ভবিষ্যতের নগদ প্রবাহ (cash flow) পূর্বাভাস দেওয়ার ক্ষমতা প্রদর্শন করেছে:

  • Claude Fable 5: সেরা পারফর্মার, যা অবিশ্বাস্যভাবে $47.15 মিলিয়নে পৌঁছেছে এবং একাধিক রান জুড়ে সবচেয়ে বেশি ধারাবাহিকতা দেখিয়েছে।
  • Claude Opus 4.8: $27.8 মিলিয়ন অর্জন করেছে, যা কাস্টমার কোহর্ট মডেল করার জন্য নিজস্ব অভ্যন্তরীণ সিমুলেশন তৈরি করে উচ্চ-স্তরের পরিশীলিততা প্রদর্শন করেছে।
  • GPT-5.5: $21.3 মিলিয়নে পৌঁছেছে, যা আলোচনার ইতিহাস বিশ্লেষণ করে গ্রাহকদের লুকানো পছন্দগুলো উন্মোচন করার মাধ্যমে সফল হয়েছে।

মজার ব্যাপার হলো, মডেলগুলো সাফল্যের জন্য ভিন্ন ভিন্ন পথ অনুসরণ করেছে। যেখানে Opus 4.8 শুরুতে আক্রমণাত্মকভাবে গ্রাহক সংগ্রহের দিকে মনোনিবেশ করেছিল, সেখানে GPT-5.5 একটি স্থিতিশীল গ্রাহক ভিত্তি বজায় রাখাকে অগ্রাধিকার দিয়েছিল। বিপরীতে, Claude Opus 4.7-এর মতো মডেলগুলো একটি "survivalist" বা টিকে থাকার মানসিকতা গ্রহণ করেছিল, যা উল্লেখযোগ্য মুনাফা না করেই কেবল দেউলিয়া হওয়া এড়াতে খরচ কমানোর দিকে নজর দিয়েছিল।

কেন এটি AI-এর ভবিষ্যতের জন্য গুরুত্বপূর্ণ

সেরা পারফর্মিং এজেন্ট ($47.15M) এবং সিমুলেশনের তাত্ত্বিক ঊর্ধ্বসীমার ($2.2B) মধ্যে ব্যবধান নির্দেশ করে যে AI "steering intelligence" বা দিকনির্দেশনামূলক বুদ্ধিমত্তা এখনও প্রাথমিক পর্যায়ে রয়েছে। ডেভেলপার এবং উদ্যোক্তাদের জন্য এই বেঞ্চমার্কটি তুলে ধরে যে, AI-এর পরবর্তী দিগন্ত কেবল উন্নত যুক্তিবোধ নয়, বরং উন্নত 'temporal awareness' বা সময়ের সচেতনতা—দীর্ঘ ও অনিশ্চিত সময়ের মধ্যে সম্পদ এবং প্রত্যাশা পরিচালনা করার ক্ষমতা।

মূল বিষয়সমূহ

  • কৌশলগত ব্যবধান: বর্তমানের বেশিরভাগ AI মডেলের দীর্ঘমেয়াদী ব্যবসায়িক চক্র পরিচালনার জন্য প্রয়োজনীয় "steering intelligence" নেই, যার ফলে অধিকাংশ মডেলই ৫০০ দিনের টিকে থাকার পরীক্ষায় ব্যর্থ হয়েছে।
  • সেরা পারফর্মার: শুধুমাত্র Claude Fable 5, Claude Opus 4.8 এবং GPT-5.5 সফলভাবে কোম্পানির মূলধন প্রাথমিক $1 মিলিয়নের বেশি বৃদ্ধি করতে পেরেছে।
  • হিউরিস্টিক বেঞ্চমার্ক: একটি সাধারণ, নন-AI রুল-বেসড অ্যালগরিদম প্রায় সব LLM-কে ছাড়িয়ে গেছে, যা প্রমাণ করে যে প্রসেসিং ক্ষমতার চেয়ে কৌশলগত ধারাবাহিকতা অনেক বেশি গুরুত্বপূর্ণ।