Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২ সপ্তাহ আগে2min read

Agent Leaderboards Mislead Under Distribution Shift

ডিস্ট্রিবিউশন শিফটের কারণে এজেন্ট লিডারবোর্ডগুলো বিভ্রান্তিকর হতে পারে

বর্তমান AI এজেন্ট লিডারবোর্ডগুলো ত্রুটিপূর্ণ।

বেশিরভাগ লিডারবোর্ড একটি এজেন্টকে নিয়ে সেটিকে একটি একক স্কোরে রূপান্তরিত করে। এরপর তারা এজেন্টগুলোকে সর্বোচ্চ থেকে সর্বনিম্ন ক্রমে সাজায়। এটি একটি রিপোর্টে দেখতে ভালো লাগলেও বাস্তব জগতে এটি ব্যর্থ হয়।

IBM-এর একটি নতুন গবেষণাপত্র যার শিরোনাম "Beyond Static Leaderboards", এটি কেন ঘটে তা ব্যাখ্যা করে।

সমস্যা: অ্যাগ্রিগেট স্কোর (Aggregate Scores)

একটি একক গড় স্কোর (mean score) ডিপ্লয়মেন্টের জন্য একটি দুর্বল সংকেত। একটি মূল্যায়ন আপনার কাছে বলে দেওয়া উচিত যে কোন এজেন্টটি শিপ (ship) করা হবে। যদি একটি বেঞ্চমার্কে শীর্ষ এজেন্টটি আপনার প্রোডাকশন এনভায়রনমেন্টে শীর্ষ এজেন্ট না হয়, তবে লিডারবোর্ড আপনাকে ভুল তথ্য দিয়েছে।

IBM দেখেছে যে শর্তাবলী পরিবর্তিত হলে অ্যাগ্রিগেট স্কোরের ওপর ভিত্তি করে করা র‍্যাঙ্কিং আর কার্যকর থাকে না। একে বলা হয় ডিস্ট্রিবিউশন শিফট (distribution shift)।

উপমা: বাতাসের মধ্যে দৌড়বিদরা

কল্পনা করুন, কোনো বাতাস নেই এমন একটি ইনডোর ট্র্যাকে দৌড়বিদদের র‍্যাঙ্কিং করা হচ্ছে।
দৌড়বিদ A জিতল। দৌড়বিদ B দ্বিতীয় হলো।
এবার দৌড় প্রতিযোগিতাটি বাইরে প্রবল বাতাসের মধ্যে নিয়ে যান।
র‍্যাঙ্কিং বদলে যায়। দৌড়বিদ B জিতে যায়। দৌড়বিদ A তৃতীয় স্থানে নেমে আসে।

ইনডোর ঘড়িটি ভুল ছিল না। এটি একটি নির্দিষ্ট পরিবেশে গতি পরিমাপ করেছিল। এটি কেবল বাতাসের মধ্যে দৌড়বিদরা কেমন পারফর্ম করবে তা আগে থেকে বলতে পারেনি।

সমাধান: প্রেডিক্টিভ ভ্যালিডিটি (Predictive Validity)

IBM শুধুমাত্র র (raw) স্কোরের পরিবর্তে প্রেডিক্টিভ ভ্যালিডিটি ব্যবহারের প্রস্তাব দিচ্ছে।

প্রেডিক্টিভ ভ্যালিডিটি একটি বেঞ্চমার্ক এবং বাস্তব জগতের ফলাফলের মধ্যে র‍্যাঙ্ক কোরিলেশন (rank correlation) পরিমাপ করে। এটি একটি সহজ প্রশ্ন জিজ্ঞাসা করে: পরিবেশ পরিবর্তিত হলে কি এজেন্টদের ক্রম একই থাকে?

উচ্চ প্রেডিক্টিভ ভ্যালিডিটি: লিডারবোর্ড বাস্তব জগতের বিজয়ীর পূর্বাভাস দিতে পারে।
নিম্ন প্রেডিক্টিভ ভ্যালিডিটি: লিডারবোর্ড ভুল এজেন্টের দিকে নির্দেশ করে।

মূল ধারণাগুলো:

In-sample: বেঞ্চমার্কে ব্যবহৃত নির্দিষ্ট টাস্কগুলো।
Out-of-distribution: ডিপ্লয়মেন্টের সময় দেখা নতুন টাস্ক, নতুন টুলস বা ভিন্ন ডেটা।
Rank instability: যখন টাস্কের সামান্য পরিবর্তনে পুরো লিডারবোর্ডটি এলোমেলো হয়ে যায়।

বেঞ্চমার্কগুলোকে কেবল স্কোরবোর্ড হিসেবে দেখা বন্ধ করুন। সেগুলোকে পরিমাপের সরঞ্জাম (measurement tools) হিসেবে বিবেচনা করুন। যদি একটি সরঞ্জাম আপনার প্রয়োজনীয় ফলাফল পূর্বাভাস দিতে না পারে, তবে সেটি প্রোডাকশনের জন্য অকেজো।

Source: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Optional learning community: https://t.me/GyaanSetuAi

Agent Leaderboards Mislead Under Distribution Shift

Continue reading

এলএলএম বেঞ্চমার্কের মিথ্যা

এআই এজেন্টরা শুধু হ্যাকই করে না, তারা নিজেরাই নিজেদের সাথে প্রতারণা করে

এআই কীভাবে অনুমানকে তথ্য হিসেবে ভুলভাবে চিহ্নিত করা থেকে বিরত রাখা যায়

এআই এজেন্ট মূল্যায়ন খুব দ্রুত শেষ হয়ে যায়