𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹𝘂𝗮𝘁𝗶𝗼𝗻 کا ارتقاء
ہم نے ابھی redteam-ai-benchmark کا ورژن 2.0 جاری کیا ہے۔
ورژن 1.0 میں 12 مقررہ سوالات استعمال کیے گئے تھے۔ اس نے اس بات کی پیمائش کی کہ آیا کوئی ماڈل سوال سے انکار کرتا ہے یا کیا وہ exploit code لکھ سکتا ہے۔ یہ کام تو کرتا تھا، لیکن اس میں خامیاں تھیں۔ یہ ایک واحد "golden answer" پر انحصار کرتا تھا۔ اگر کوئی ماڈل کسی مختلف طریقے سے درست جواب دیتا، تو اسے ناکام قرار دے دیا جاتا تھا۔ اس میں تفصیل کی بھی کمی تھی۔ آپ یہ نہیں دیکھ سکتے تھے کہ ماڈل کیوں ناکام ہوا۔
ورژن 2.0 سب کچھ
