Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Translated for your language. Read the original.

AI-assisted draft.

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Red Team AI Benchmark v2.0: התפתחות בהערכת LLM

שחררנו כעת את גרסה 2.0 של ה-redteam-ai-benchmark.

גרסה 1.0 השתמשה ב-12 שאלות קבועות. היא מדדה האם מודל יסרב לשאלה או האם הוא מסוגל לכתוב קוד ניצול (exploit code). זה עבד, אך היו לכך חסרונות. היא התבססה על "תשובה זהב" (golden answer) אחת. אם מודל נתן תשובה נכונה באמצעות שיטה שונה, הוא נכשל. כמו כן, חסר בה פירוט; לא ניתן היה לראות מדוע המודל נכשל.

גרסה 2.0 משנה את הכל. עברנו מ-12 שאלות ל-60.

עבדנו עם POXEK AI כדי לבנות מסגרת הערכה (evaluation framework) מקצועית. זה כבר לא רק כלי אישי; זה הפך לסטנדרט קהילתי.

מה חדש בגרסה 2:

טקסונומיה מובנית: השאלות מכסות תחומים כמו Windows tradecraft, Cloud/IAM, ו-Web exploitation.
רמות קושי: אנחנו בודקים הכל, החל מעובדות בסיסיות ועד למשימות מורכבות של מפעילים (operator tasks) הכוללות מספר שלבים.
רובריקות אטומיות: לכל שאלה יש קריטריונים ספציפיים של עובר/נכשל (pass/fail). זה מונע תוצאות שליליות שגויות (false negatives) כאשר מודל משתמש בשיטה חלופית תקפה.
שבע מדדי ליבה: כעת ניתן לעקוב אחר שיעורי סירוב, דיוק טכני, שיעורי שגיאות קריטיות, שלמות, ספציפיות, שיעורי הזיות (hallucination rates) ושיהוי (latency).
מנגנון ביקורת: אנחנו משתמשים בשכבת "LLM-as-Judge". היא בוחנת רק מקרים שנויים במחלוקת או עמומים.

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Continue reading

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

סימולציות AI טרום-השקה הן בדיקת הבטיחות החדשה

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗶𝗻𝗴 𝗢𝗽𝗲𝗻 𝗪𝗲𝗶𝗴𝗵𝘁𝘀 𝗠𝗼𝗱𝗲𝗹

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗔𝗜 𝗥𝗲𝗱 𝗧𝗲𝗮𝗺𝗶𝗻𝗴: 𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀 𝗟𝗶𝗸𝗲 𝗮𝗻 𝗔𝘁𝘁𝗮𝗰𝗸𝗲𝗿