𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

আপনার AI এজেন্ট আপনার স্টেজিং এনভায়রনমেন্টে নিখুঁতভাবে কাজ করছিল। ডেমোগুলো দেখতে দারুণ ছিল। প্রোডাক্ট ম্যানেজারও খুশি ছিলেন।

তারপর আপনি এটি প্রোডাকশনে শিপ করলেন।

তিন সপ্তাহ পর, আপনি বাগ রিপোর্ট পেতে শুরু করলেন। এজেন্ট এমন সব উত্তর দিচ্ছে যা শুনতে সঠিক মনে হলেও আসলে সম্পূর্ণ ভুল।

আমি ২০২৫ সালে এটি ঘটতে দেখেছি। একটি টিম এমন একটি এজেন্ট শিপ করেছিল যা এন্টারপ্রাইজ গ্রাহকদের জন্য পণ্যের দাম নিয়ে ভুল তথ্য (hallucinate) দিচ্ছিল। এজেন্টের কনফিডেন্স স্কোর ছিল ০.৯৪, যা বেশ উচ্চ। কিন্তু প্রকৃত নির্ভুলতা ছিল মাত্র ৬০%।

টিমটি ব্যর্থ হয়েছিল কারণ তাদের কোনো ইভ্যালুয়েশন পাইপলাইন ছিল না। তারা কেবল আশার ওপর নির্ভর করেছিল।

আশা কোনো ডিপ্লয়মেন্ট স্ট্র্যাটেজি নয়।

বেশিরভাগ টিম তাদের সমস্ত সময় এজেন্ট আর্কিটেকচারের পেছনে ব্যয় করে। তারা টুল ডেফিনিশন, প্রম্পট এবং লজিকের ওপর মনোযোগ দেয়। তারা শিপ করে এবং প্রার্থনা করে।

এটি 'Measurement Theater'-এর দিকে নিয়ে যায়। এটি এমন একটি অবস্থা যখন আপনি ড্যাশবোর্ড এবং টেস্ট স্যুট ব্যবহার করে এজেন্টকে দেখতে ভালো দেখান, কিন্তু প্রকৃত ব্যর্থতাগুলো ধরতে পারেন না। আপনি বেঞ্চমার্কে ৯৫% নির্ভুলতা উদযাপন করেন, অথচ এজেন্ট প্রকৃত ব্যবহারকারীর ৩০% কুয়েরিতে ব্যর্থ হয়।

আপনার স্ট্যাটিক বেঞ্চমার্ক থেকে SkillOps-এ সরে আসা প্রয়োজন। এর মানে হলো পুরো এজেন্টের পরিবর্তে এজেন্টের নির্দিষ্ট দক্ষতাগুলো (skills) মূল্যায়ন করা।

এজেন্ট কাজ করছে কি না তা জিজ্ঞেস করা বন্ধ করুন। বরং কোন নির্দিষ্ট দক্ষতাগুলো ব্যর্থ হচ্ছে এবং কেন, তা জিজ্ঞেস করা শুরু করুন।

প্রোডাকশন বিপর্যয় এড়াতে এই ফ্রেমওয়ার্কটি ব্যবহার করুন:

২০২৬ সালের শেষের দিকে, এজেন্ট ইভ্যালুয়েশন ডিপ্লয়মেন্টের একটি স্ট্যান্ডার্ড অংশ হয়ে উঠবে। যে টিমগুলো এই ফ্রেমওয়ার্কগুলো ব্যবহার করবে তারা দ্রুত শিপ করতে পারবে। আর যারা করবে না, তারা বারবার বলবে, "এটি স্টেজিংয়ে কাজ করছিল।"

আপনার টিম কি AI এজেন্টদের জন্য ইভ্যালুয়েশন ইনফ্রাস্ট্রাকচার তৈরি করেছে? কোন মেট্রিক্সগুলো আসলে আপনার ব্যর্থতাগুলো ধরতে পেরেছিল?

নিচে একটি কমেন্ট করুন। আমি প্রত্যেকের উত্তর দিই।

উৎস: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi