বিশেষজ্ঞ পর্যায়ের কাজে AI এজেন্টদের স্কোর ০%

Translated for your language. Read the original.

AI-assisted draft.

গত পরশু2min read

বিশেষজ্ঞমূলক কাজে AI এজেন্টদের স্কোর ০%

AI এজেন্টরা বিশেষজ্ঞমূলক কাজে ব্যর্থ হয়েছে।

ALE বেঞ্চমার্ক পেশাদার কাজের ক্ষেত্রে শীর্ষ মডেলগুলোকে পরীক্ষা করেছে। এই কাজগুলোর জন্য প্রকৃত দক্ষতার প্রয়োজন। এগুলো কোনো PDF সামারি করার মতো সাধারণ কাজ নয়।

ফলাফল ছিল স্পষ্ট। Fable 5 এবং GPT-5.5 এর মতো মডেলগুলো সবচেয়ে কঠিন বিশেষজ্ঞমূলক সমস্যাগুলোতে ০% স্কোর করেছে। একটি মুদ্রা নিক্ষেপ (coin flip) এর চেয়েও ভালো ফলাফল দিত।

মাঝারি স্তরের কাজগুলোতেও পারফরম্যান্স ছিল নিম্ন। সেরা এজেন্টগুলো মাত্র ১৫% থেকে ২১% সাফল্যের হার অর্জন করতে পেরেছে।

AI এজেন্টগুলো আসলে তেমন নয় যেমনটা হাইপ করা হচ্ছে।

আপনি এজেন্টদের ফ্লাইট বুক করা বা কোড লেখার ভিডিও দেখেন। এই ডেমোগুলো দেখতে দারুণ লাগে। কিন্তু ডেমোগুলো কিউরেটেড করা হয়। বেঞ্চমার্কগুলো তেমন নয়।

একটি ডেমো এবং বাস্তব প্রয়োগের (deployment) মধ্যে বিশাল ব্যবধান রয়েছে। অনেক টিম এমন দক্ষতার ওপর ভিত্তি করে পণ্যের সিদ্ধান্ত নেয় যা আসলে নেই। তারা এজেন্টদের দিয়ে পুরো ওয়ার্কফ্লো পরিচালনা করার পরিকল্পনা করে। এটি একটি ভুল।

ডেটা যা বলছে তা হলো:

এজেন্টরা মাঝারি স্তরের কাজের জন্য সহকারী হিসেবে ভালো কাজ করে।
বিশেষজ্ঞমূলক স্বায়ত্তশাসন (autonomy) এখনও আসেনি।
ডেমোর চেয়ে বেঞ্চমার্ক অনেক বেশি নির্ভরযোগ্য।

আপনি যদি আজ এজেন্ট দিয়ে কিছু তৈরি করেন, তবে তাদের বর্তমান সীমাবদ্ধতার কথা মাথায় রেখে তৈরি করুন। কোনো বক্তা শীঘ্রই যা ঘটবে বলে প্রতিশ্রুতি দিচ্ছেন, তার ওপর ভিত্তি করে কিছু তৈরি করবেন না।

ইন্ডাস্ট্রি এই ফলাফলগুলোকে উপেক্ষা করছে। মানুষ ডেটার পরিবর্তে হাইপের ওপর ভিত্তি করে রোডম্যাপ তৈরি করে চলেছে।

আপনি যদি আপনার পণ্যে এজেন্ট ব্যবহার করেন, তবে তাদের জুনিয়র ডেভেলপার হিসেবে বিবেচনা করুন। তারা স্পষ্ট নিয়মের অধীনে ছোট ছোট কাজ করে। তদারকি ছাড়া তারা জটিল কাজে ব্যর্থ হয়।

এই নিয়মগুলো অনুসরণ করুন:

উচ্চ-ঝুঁকিপূর্ণ কাজের জন্য মানুষের তদারকি (human in the loop) নিশ্চিত করুন।
এজেন্টদের খুব সীমিত বা নির্দিষ্ট কাজ দিন।
আপনার প্রকৃত কাজের চাপের বিপরীতে পারফরম্যান্স পরিমাপ করুন।

একটি বাস্তবসম্মত পদ্ধতি হাইপ থ্রেডের চেয়ে কম মজার হতে পারে। কিন্তু এটি কার্যকর সফটওয়্যার তৈরি করতে সাহায্য করে।

এজেন্ট হলো টুল। তারা কোনো স্বায়ত্তশাসিত কর্মী বাহিনী নয়। বাস্তবতাকে ভিত্তি করে তৈরি করুন।

আপনি কোন এজেন্ট সক্ষমতাকে সবচেয়ে বেশি হাইপ করা বা অতিরঞ্জিত হিসেবে দেখেছেন যা টিমগুলো শিপ করার চেষ্টা করছে? আপনার অভিজ্ঞতা নিচে শেয়ার করুন।

উৎস: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

বিশেষজ্ঞ পর্যায়ের কাজে AI এজেন্টদের স্কোর ০%

Continue reading

AI এজেন্টদের অন্ধবিন্দু

আপনার AI এজেন্ট সব পরীক্ষায় সফল হয়েছিল — কিন্তু প্রোডাকশনে ব্যর্থ হলো

অ্যাম্বিয়েন্ট এআই এজেন্ট: এড়ানোর মতো ৭টি ভুল

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI এজেন্টদের নির্ভরযোগ্যতার সমস্যা রয়েছে