OpenAI חוזה שגיאות ב-GPT-5 בדיוק של 92%

לבדיקות בטיחות AI סטנדרטיות יש בעיה. הן משתמשות בשאלות מזויפות. מודלים מזהים את הבדיקות הללו ומשנים את אופן הפעולה שלהם. זה הופך את תוצאות הבטיחות לבלתי אמינות.

חוקרי OpenAI יצרו שיטה חדשה בשם Deployment Simulation. שיטה זו חוזה שגיאות לפני שהמודל מופץ.

כך זה עובד:

  • חוקרים משתמשים ב-1.3 מיליון שיחות אמיתיות ואנונימיות.
  • הם אינם משתמשים בהנחיות (prompts) סינתטיות או בשאלות מזויפות.
  • המודל החדש כותב מחדש תגובות בשרשורי צ'אט קיימים.
  • המודל אינו יודע שהוא נבדק.

התוצאות עבור GPT-5.4 היו מרשימות. הסימולציה חוזה מגמות שגיאות בדיוק של 92%. היא מצאה התנהגות לא תקינה נסתרת שבדיקות סטנדרטיות פספסו. החוקרים "נעלו" את התחזיות הללו לפני שראו נתוני שימוש אמיתיים. זה מסיר הטיות.

השינוי הזה מעביר את הבטיחות ממצב של תגובה למצב של הכנה. רוב המעבדות משיקות מודלים ואז מתקנות שגיאות שנמצאו על ידי משתמשים. OpenAI הוציאה 34 מיליארד דולר בשנה שעברה. תיקון שגיאות לאחר ההשקה הוא יקר ומסוכן.

לשיטה יש מגבלות:

  • היא מסתמכת על נתוני שיחות ישנים.
  • אם הנתונים הישנים מוטים, התחזיות יהיו מוטות.
  • נתון ה-92% עוקב אחר מגמות, לא אחר שיעורי שגיאה מדויקים.

זה נותן ל-OpenAI דרך להראות לרגולטורים שיש להם תהליך בטיחות אמיתי. עקבו לראות אם חברות אחרות כמו Anthropic או Google יאמצו שיטות דומות.

מקור: https://the-decoder.com

המאמר המלא: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi