বিশেষজ্ঞমূলক কাজে AI এজেন্টদের স্কোর ০%
AI এজেন্টরা বিশেষজ্ঞমূলক কাজে ব্যর্থ হয়েছে।
ALE বেঞ্চমার্ক পেশাদার কাজের ক্ষেত্রে শীর্ষ মডেলগুলোকে পরীক্ষা করেছে। এই কাজগুলোর জন্য প্রকৃত দক্ষতার প্রয়োজন। এগুলো কোনো PDF সামারি করার মতো সাধারণ কাজ নয়।
ফলাফল ছিল স্পষ্ট। Fable 5 এবং GPT-5.5 এর মতো মডেলগুলো সবচেয়ে কঠিন বিশেষজ্ঞমূলক সমস্যাগুলোতে ০% স্কোর করেছে। একটি মুদ্রা নিক্ষেপ (coin flip) এর চেয়েও ভালো ফলাফল দিত।
মাঝারি স্তরের কাজগুলোতেও পারফরম্যান্স ছিল নিম্ন। সেরা এজেন্টগুলো মাত্র ১৫% থেকে ২১% সাফল্যের হার অর্জন করতে পেরেছে।
AI এজেন্টগুলো আসলে তেমন নয় যেমনটা হাইপ করা হচ্ছে।
আপনি এজেন্টদের ফ্লাইট বুক করা বা কোড লেখার ভিডিও দেখেন। এই ডেমোগুলো দেখতে দারুণ লাগে। কিন্তু ডেমোগুলো কিউরেটেড করা হয়। বেঞ্চমার্কগুলো তেমন নয়।
একটি ডেমো এবং বাস্তব প্রয়োগের (deployment) মধ্যে বিশাল ব্যবধান রয়েছে। অনেক টিম এমন দক্ষতার ওপর ভিত্তি করে পণ্যের সিদ্ধান্ত নেয় যা আসলে নেই। তারা এজেন্টদের দিয়ে পুরো ওয়ার্কফ্লো পরিচালনা করার পরিকল্পনা করে। এটি একটি ভুল।
ডেটা যা বলছে তা হলো:
- এজেন্টরা মাঝারি স্তরের কাজের জন্য সহকারী হিসেবে ভালো কাজ করে।
- বিশেষজ্ঞমূলক স্বায়ত্তশাসন (autonomy) এখনও আসেনি।
- ডেমোর চেয়ে বেঞ্চমার্ক অনেক বেশি নির্ভরযোগ্য।
আপনি যদি আজ এজেন্ট দিয়ে কিছু তৈরি করেন, তবে তাদের বর্তমান সীমাবদ্ধতার কথা মাথায় রেখে তৈরি করুন। কোনো বক্তা শীঘ্রই যা ঘটবে বলে প্রতিশ্রুতি দিচ্ছেন, তার ওপর ভিত্তি করে কিছু তৈরি করবেন না।
ইন্ডাস্ট্রি এই ফলাফলগুলোকে উপেক্ষা করছে। মানুষ ডেটার পরিবর্তে হাইপের ওপর ভিত্তি করে রোডম্যাপ তৈরি করে চলেছে।
আপনি যদি আপনার পণ্যে এজেন্ট ব্যবহার করেন, তবে তাদের জুনিয়র ডেভেলপার হিসেবে বিবেচনা করুন। তারা স্পষ্ট নিয়মের অধীনে ছোট ছোট কাজ করে। তদারকি ছাড়া তারা জটিল কাজে ব্যর্থ হয়।
এই নিয়মগুলো অনুসরণ করুন:
- উচ্চ-ঝুঁকিপূর্ণ কাজের জন্য মানুষের তদারকি (human in the loop) নিশ্চিত করুন।
- এজেন্টদের খুব সীমিত বা নির্দিষ্ট কাজ দিন।
- আপনার প্রকৃত কাজের চাপের বিপরীতে পারফরম্যান্স পরিমাপ করুন।
একটি বাস্তবসম্মত পদ্ধতি হাইপ থ্রেডের চেয়ে কম মজার হতে পারে। কিন্তু এটি কার্যকর সফটওয়্যার তৈরি করতে সাহায্য করে।
এজেন্ট হলো টুল। তারা কোনো স্বায়ত্তশাসিত কর্মী বাহিনী নয়। বাস্তবতাকে ভিত্তি করে তৈরি করুন।
আপনি কোন এজেন্ট সক্ষমতাকে সবচেয়ে বেশি হাইপ করা বা অতিরঞ্জিত হিসেবে দেখেছেন যা টিমগুলো শিপ করার চেষ্টা করছে? আপনার অভিজ্ঞতা নিচে শেয়ার করুন।
উৎস: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi