ডিস্ট্রিবিউশন শিফটের কারণে এজেন্ট লিডারবোর্ডগুলো বিভ্রান্তিকর হতে পারে

বর্তমান AI এজেন্ট লিডারবোর্ডগুলো ত্রুটিপূর্ণ।

বেশিরভাগ লিডারবোর্ড একটি এজেন্টকে নিয়ে সেটিকে একটি একক স্কোরে রূপান্তরিত করে। এরপর তারা এজেন্টগুলোকে সর্বোচ্চ থেকে সর্বনিম্ন ক্রমে সাজায়। এটি একটি রিপোর্টে দেখতে ভালো লাগলেও বাস্তব জগতে এটি ব্যর্থ হয়।

IBM-এর একটি নতুন গবেষণাপত্র যার শিরোনাম "Beyond Static Leaderboards", এটি কেন ঘটে তা ব্যাখ্যা করে।

সমস্যা: অ্যাগ্রিগেট স্কোর (Aggregate Scores)

একটি একক গড় স্কোর (mean score) ডিপ্লয়মেন্টের জন্য একটি দুর্বল সংকেত। একটি মূল্যায়ন আপনার কাছে বলে দেওয়া উচিত যে কোন এজেন্টটি শিপ (ship) করা হবে। যদি একটি বেঞ্চমার্কে শীর্ষ এজেন্টটি আপনার প্রোডাকশন এনভায়রনমেন্টে শীর্ষ এজেন্ট না হয়, তবে লিডারবোর্ড আপনাকে ভুল তথ্য দিয়েছে।

IBM দেখেছে যে শর্তাবলী পরিবর্তিত হলে অ্যাগ্রিগেট স্কোরের ওপর ভিত্তি করে করা র‍্যাঙ্কিং আর কার্যকর থাকে না। একে বলা হয় ডিস্ট্রিবিউশন শিফট (distribution shift)।

উপমা: বাতাসের মধ্যে দৌড়বিদরা

  • কল্পনা করুন, কোনো বাতাস নেই এমন একটি ইনডোর ট্র্যাকে দৌড়বিদদের র‍্যাঙ্কিং করা হচ্ছে।
  • দৌড়বিদ A জিতল। দৌড়বিদ B দ্বিতীয় হলো।
  • এবার দৌড় প্রতিযোগিতাটি বাইরে প্রবল বাতাসের মধ্যে নিয়ে যান।
  • র‍্যাঙ্কিং বদলে যায়। দৌড়বিদ B জিতে যায়। দৌড়বিদ A তৃতীয় স্থানে নেমে আসে।

ইনডোর ঘড়িটি ভুল ছিল না। এটি একটি নির্দিষ্ট পরিবেশে গতি পরিমাপ করেছিল। এটি কেবল বাতাসের মধ্যে দৌড়বিদরা কেমন পারফর্ম করবে তা আগে থেকে বলতে পারেনি।

সমাধান: প্রেডিক্টিভ ভ্যালিডিটি (Predictive Validity)

IBM শুধুমাত্র র (raw) স্কোরের পরিবর্তে প্রেডিক্টিভ ভ্যালিডিটি ব্যবহারের প্রস্তাব দিচ্ছে।

প্রেডিক্টিভ ভ্যালিডিটি একটি বেঞ্চমার্ক এবং বাস্তব জগতের ফলাফলের মধ্যে র‍্যাঙ্ক কোরিলেশন (rank correlation) পরিমাপ করে। এটি একটি সহজ প্রশ্ন জিজ্ঞাসা করে: পরিবেশ পরিবর্তিত হলে কি এজেন্টদের ক্রম একই থাকে?

  • উচ্চ প্রেডিক্টিভ ভ্যালিডিটি: লিডারবোর্ড বাস্তব জগতের বিজয়ীর পূর্বাভাস দিতে পারে।
  • নিম্ন প্রেডিক্টিভ ভ্যালিডিটি: লিডারবোর্ড ভুল এজেন্টের দিকে নির্দেশ করে।

মূল ধারণাগুলো:

  • In-sample: বেঞ্চমার্কে ব্যবহৃত নির্দিষ্ট টাস্কগুলো।
  • Out-of-distribution: ডিপ্লয়মেন্টের সময় দেখা নতুন টাস্ক, নতুন টুলস বা ভিন্ন ডেটা।
  • Rank instability: যখন টাস্কের সামান্য পরিবর্তনে পুরো লিডারবোর্ডটি এলোমেলো হয়ে যায়।

বেঞ্চমার্কগুলোকে কেবল স্কোরবোর্ড হিসেবে দেখা বন্ধ করুন। সেগুলোকে পরিমাপের সরঞ্জাম (measurement tools) হিসেবে বিবেচনা করুন। যদি একটি সরঞ্জাম আপনার প্রয়োজনীয় ফলাফল পূর্বাভাস দিতে না পারে, তবে সেটি প্রোডাকশনের জন্য অকেজো।

Source: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Optional learning community: https://t.me/GyaanSetuAi