বিশেষজ্ঞমূলক কাজে AI এজেন্টদের স্কোর ০%

AI এজেন্টরা বিশেষজ্ঞমূলক কাজে ব্যর্থ হয়েছে।

ALE বেঞ্চমার্ক পেশাদার কাজের ক্ষেত্রে শীর্ষ মডেলগুলোকে পরীক্ষা করেছে। এই কাজগুলোর জন্য প্রকৃত দক্ষতার প্রয়োজন। এগুলো কোনো PDF সামারি করার মতো সাধারণ কাজ নয়।

ফলাফল ছিল স্পষ্ট। Fable 5 এবং GPT-5.5 এর মতো মডেলগুলো সবচেয়ে কঠিন বিশেষজ্ঞমূলক সমস্যাগুলোতে ০% স্কোর করেছে। একটি মুদ্রা নিক্ষেপ (coin flip) এর চেয়েও ভালো ফলাফল দিত।

মাঝারি স্তরের কাজগুলোতেও পারফরম্যান্স ছিল নিম্ন। সেরা এজেন্টগুলো মাত্র ১৫% থেকে ২১% সাফল্যের হার অর্জন করতে পেরেছে।

AI এজেন্টগুলো আসলে তেমন নয় যেমনটা হাইপ করা হচ্ছে।

আপনি এজেন্টদের ফ্লাইট বুক করা বা কোড লেখার ভিডিও দেখেন। এই ডেমোগুলো দেখতে দারুণ লাগে। কিন্তু ডেমোগুলো কিউরেটেড করা হয়। বেঞ্চমার্কগুলো তেমন নয়।

একটি ডেমো এবং বাস্তব প্রয়োগের (deployment) মধ্যে বিশাল ব্যবধান রয়েছে। অনেক টিম এমন দক্ষতার ওপর ভিত্তি করে পণ্যের সিদ্ধান্ত নেয় যা আসলে নেই। তারা এজেন্টদের দিয়ে পুরো ওয়ার্কফ্লো পরিচালনা করার পরিকল্পনা করে। এটি একটি ভুল।

ডেটা যা বলছে তা হলো:

  • এজেন্টরা মাঝারি স্তরের কাজের জন্য সহকারী হিসেবে ভালো কাজ করে।
  • বিশেষজ্ঞমূলক স্বায়ত্তশাসন (autonomy) এখনও আসেনি।
  • ডেমোর চেয়ে বেঞ্চমার্ক অনেক বেশি নির্ভরযোগ্য।

আপনি যদি আজ এজেন্ট দিয়ে কিছু তৈরি করেন, তবে তাদের বর্তমান সীমাবদ্ধতার কথা মাথায় রেখে তৈরি করুন। কোনো বক্তা শীঘ্রই যা ঘটবে বলে প্রতিশ্রুতি দিচ্ছেন, তার ওপর ভিত্তি করে কিছু তৈরি করবেন না।

ইন্ডাস্ট্রি এই ফলাফলগুলোকে উপেক্ষা করছে। মানুষ ডেটার পরিবর্তে হাইপের ওপর ভিত্তি করে রোডম্যাপ তৈরি করে চলেছে।

আপনি যদি আপনার পণ্যে এজেন্ট ব্যবহার করেন, তবে তাদের জুনিয়র ডেভেলপার হিসেবে বিবেচনা করুন। তারা স্পষ্ট নিয়মের অধীনে ছোট ছোট কাজ করে। তদারকি ছাড়া তারা জটিল কাজে ব্যর্থ হয়।

এই নিয়মগুলো অনুসরণ করুন:

  • উচ্চ-ঝুঁকিপূর্ণ কাজের জন্য মানুষের তদারকি (human in the loop) নিশ্চিত করুন।
  • এজেন্টদের খুব সীমিত বা নির্দিষ্ট কাজ দিন।
  • আপনার প্রকৃত কাজের চাপের বিপরীতে পারফরম্যান্স পরিমাপ করুন।

একটি বাস্তবসম্মত পদ্ধতি হাইপ থ্রেডের চেয়ে কম মজার হতে পারে। কিন্তু এটি কার্যকর সফটওয়্যার তৈরি করতে সাহায্য করে।

এজেন্ট হলো টুল। তারা কোনো স্বায়ত্তশাসিত কর্মী বাহিনী নয়। বাস্তবতাকে ভিত্তি করে তৈরি করুন।

আপনি কোন এজেন্ট সক্ষমতাকে সবচেয়ে বেশি হাইপ করা বা অতিরঞ্জিত হিসেবে দেখেছেন যা টিমগুলো শিপ করার চেষ্টা করছে? আপনার অভিজ্ঞতা নিচে শেয়ার করুন।

উৎস: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi