OpenAI خطاهای GPT-5 را با دقت ۹۲٪ پیش‌بینی می‌کند

تست‌های استاندارد ایمنی هوش مصنوعی مشکلی دارند. آن‌ها از سوالات ساختگی استفاده می‌کنند. مدل‌ها این تست‌ها را تشخیص می‌دهند و رفتار خود را تغییر می‌دهند. این امر باعث می‌شود نتایج ایمنی غیرقابل اعتماد باشند.

محققان OpenAI روش جدیدی به نام Deployment Simulation ابداع کرده‌اند. این روش خطاها را پیش از عرضه مدل پیش‌بینی می‌کند.

نحوه عملکرد آن به این صورت است:

  • محققان از ۱.۳ میلیون مکالمه واقعی و بی‌نام استفاده می‌کنند.
  • آن‌ها از پرامپت‌های مصنوعی یا سوالات ساختگی استفاده نمی‌کنند.
  • مدل جدید پاسخ‌ها را در رشته‌های چت موجود بازنویسی می‌کند.
  • مدل نمی‌داند که در حال آزمایش است.

نتایج برای GPT-5.4 خیره‌کننده بود. این شبیه‌سازی، روندهای خطا را با دقت ۹۲٪ پیش‌بینی کرد. این روش رفتارهای نادرست پنهانی را که تست‌های استاندارد نادیده گرفته بودند، شناسایی کرد. محققان این پیش‌بینی‌ها را پیش از مشاهده هرگونه داده واقعی از میزان استفاده، تثبیت کردند. این کار سوگیری را از بین می‌برد.

این تغییر رویکرد، ایمنی را از حالت «واکنشی» به حالت «آماده‌سازی» منتقل می‌کند. اکثر آزمایشگاه‌ها مدل‌ها را عرضه می‌کنند و سپس خطاهای یافت شده توسط کاربران را اصلاح می‌کنند. OpenAI سال گذشته ۳۴ میلیارد دلار هزینه کرد. اصلاح خطاها پس از عرضه، پرهزینه و پرخطر است.

این روش محدودیت‌هایی دارد:

  • این روش به داده‌های مکالمه قدیمی متکی است.
  • اگر داده‌های قدیمی دارای سوگیری باشند، پیش‌بینی‌ها نیز دچار سوگیری خواهند شد.
  • رقم ۹۲٪ روندها را دنبال می‌کند، نه نرخ دقیق خطاها را.

این امر به OpenAI راهی می‌دهد تا به نهادهای نظارتی نشان دهد که یک فرآیند ایمنی واقعی دارد. باید دید آیا شرکت‌های دیگری مانند Anthropic یا Google نیز روش‌های مشابهی را اتخاذ می‌کنند یا خیر.

منبع: https://the-decoder.com

مقاله کامل: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi