এজেন্টিক AI সিস্টেম পরীক্ষা করা
একটি AI এজেন্ট তৈরি করা সহজ। কিন্তু এটি যেন নিয়ন্ত্রণের বাইরে না চলে যায় তা নিশ্চিত করা কঠিন। প্রোটোটাইপ থেকে প্রোডাকশনে যাওয়ার জন্য আপনার একটি কঠোর টেস্টিং ফ্রেমওয়ার্ক প্রয়োজন।
আপনার এজেন্টকে সুরক্ষিত করতে এই আটটি ধাপ অনুসরণ করুন:
ধাপ ১: কম্পোনেন্ট টেস্ট (Component tests) প্রতিটি লেয়ারের জন্য ইউনিট টেস্ট লিখুন। আপনার রিসার্চ এজেন্ট, সার্চ টুলস এবং মেমরি পরীক্ষা করুন। আপনার বিশেষজ্ঞদের দ্বারা অনুমোদিত মক ডেটা (mock data) ব্যবহার করুন। Shopify বা Meta-এর মতো আপনার এক্সটার্নাল API-গুলোকে স্টাব (stub) করুন। যদি কোনো API ডাউন থাকে, তবে তার কারণে আপনার টেস্ট ফেইল করা উচিত নয়।
ধাপ ২: প্রম্পট রিপোজিটরি (The prompt repository) নিখুঁত প্রম্পটের একটি লাইব্রেরি তৈরি করুন। বিজনেস এরিয়া অনুযায়ী সেগুলোকে ট্যাগ করুন। প্রম্পট ইনজেকশন (prompt injection) এবং খালি টুল রেসপন্সের মতো ফেইলর কেসগুলো অন্তর্ভুক্ত করুন। মেমরি ঠিকমতো কাজ করছে কি না তা নিশ্চিত করতে মাল্টি-টার্ন কনভারসেশন পরীক্ষা করুন। সেশনগুলোর মধ্যে ইউজার ডেটা লিক হচ্ছে না তা নিশ্চিত করুন।
ধাপ ৩: কভারেজ এবং ট্র্যাজেক্টরি (Coverage and trajectory) প্রতিটি টুল আসলে কাজ করছে কি না তা পরীক্ষা করুন। তারপর, এজেন্ট যে পথ অনুসরণ করেছে তা পরীক্ষা করুন। শুধু একটি টুল ব্যবহার করাই যথেষ্ট নয়। এজেন্টকে অবশ্যই সঠিক আর্গুমেন্টসহ এবং সঠিক ক্রমে সঠিক টুলটি ব্যবহার করতে হবে।
ধাপ ৪: ভার্সনড রানস (Versioned runs) প্রতিটি রান-এর সাথে একটি ভার্সন নম্বর যুক্ত করুন। প্রতিটি রেসপন্স সংরক্ষণ করুন। মডেলের র্যান্ডমনেস (randomness) বিবেচনায় প্রতিটি প্রম্পট বেশ কয়েকবার চালান। আপনার পাস রেট, খরচ, টোকেন এবং ল্যাটেন্সি ট্র্যাক করুন। নির্ভুলতা (Accuracy) হলো গতি এবং মূল্যের বিপরীতে একটি ব্যবসায়িক ভারসাম্য (trade-off)।
ধাপ ৫: গ্রাউন্ড ট্রুথ স্টোর (Ground truth store) প্রতিটি প্রম্পটের জন্য যাচাইকৃত উত্তরগুলো রাখুন। কারা এই উত্তরগুলো পরিবর্তন করতে পারবে তা নির্ধারণ করুন। আপনার প্রোডাক্ট পরিবর্তন হলে যদি আপনি গ্রাউন্ড ট্রুথ আপডেট না করেন, তবে আপনার টেস্টগুলো সঠিকভাবে ফেইল করবে।
ধাপ ৬: ইভ্যালুয়েটর (The evaluator) আপনার গ্রাউন্ড ট্রুথের বিপরীতে রানগুলোর স্কোর নির্ধারণ করুন। প্রিসিশন (precision) এবং সঠিকতা পরীক্ষা করতে একটি LLM জাজ ব্যবহার করুন। জাজের পক্ষপাতিত্ব (bias) সম্পর্কে সতর্ক থাকুন। নির্ভুলতা নিশ্চিত করতে LLM স্কোরগুলোর সাথে মানুষের দেওয়া লেবেলের তুলনা করুন।
ধাপ ৭: হিউম্যান রিভিউ (Human review) কম স্কোর পাওয়া কেসগুলোর জন্য একটি ড্যাশবোর্ড তৈরি করুন। মানুষকে ভুলগুলো সংশোধন করতে দিন। আপনার LLM জাজকে প্রশিক্ষণ দিতে এই মানুষের করা সংশোধনগুলো ব্যবহার করুন।
ধাপ ৮: CI/CD ইন্টিগ্রেশন (CI/CD integration) প্রতিটি পুল রিকোয়েস্টের (pull request) ওপর কম্পোনেন্ট টেস্ট চালান। প্রতি রাতে সম্পূর্ণ স্যুট (full suite) চালান। একটি থ্রেশহোল্ড সেট করুন যা স্কোর কমে গেলে ডিপ্লয়মেন্ট ব্লক করে দেবে।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
