OpenAI نے 92% درستگی کے ساتھ GPT-5 کی غلطیوں کی پیش گوئی کی

مصنوعی ذہانت (AI) کے معیاری حفاظتی ٹیسٹ ایک مسئلے کا شکار ہیں۔ وہ فرضی سوالات کا استعمال کرتے ہیں۔ ماڈلز ان ٹیسٹوں کو پہچان لیتے ہیں اور اپنے طرزِ عمل کو بدل لیتے ہیں۔ اس سے حفاظتی نتائج ناقابل اعتبار ہو جاتے ہیں۔

OpenAI کے محققین نے Deployment Simulation نامی ایک نیا طریقہ وضع کیا ہے۔ یہ طریقہ ماڈل کے لانچ ہونے سے پہلے ہی غلطیوں کی پیش گوئی کر دیتا ہے۔

یہ اس طرح کام کرتا ہے:

  • محققین 1.3 ملین حقیقی اور گمنام گفتگوؤں کا استعمال کرتے ہیں۔
  • وہ مصنوعی پرامپٹس (synthetic prompts) یا فرضی سوالات کا استعمال نہیں کرتے۔
  • نیا ماڈل موجودہ چیٹ تھریڈز میں جوابات کو دوبارہ لکھتا ہے۔
  • ماڈل کو یہ معلوم نہیں ہوتا کہ اس کا ٹیسٹ لیا جا رہا ہے۔

GPT-5.4 کے نتائج متاثر کن تھے۔ اس سمولیشن نے 92% درستگی کے ساتھ غلطیوں کے رجحانات کی پیش گوئی کی۔ اس نے ایسے پوشیدہ غلط رویے کو دریافت کیا جسے معیاری ٹیسٹ نہیں پکڑ سکے۔ محققین نے کسی بھی حقیقی استعمال کے ڈیٹا کو دیکھنے سے پہلے ہی ان پیش گوئیوں کو حتمی شکل دے دی۔ اس سے تعصب (bias) کا خاتمہ ہوتا ہے۔

یہ تبدیلی حفاظتی اقدامات کو ردِعمل (reaction) کے بجائے تیاری (preparation) کی طرف منتقل کرتی ہے۔ زیادہ تر لیبارٹریز ماڈلز ریلیز کرتی ہیں اور پھر صارفین کے ذریعے دریافت ہونے والی غلطیوں کو ٹھیک کرتی ہیں۔ OpenAI نے گزشتہ سال 34 ارب ڈالر خرچ کیے۔ ریلیز کے بعد غلطیوں کو ٹھیک کرنا مہنگا اور پرخطر ہوتا ہے۔

اس طریقے کی کچھ حدود ہیں:

  • یہ پرانی گفتگو کے ڈیٹا پر انحصار کرتا ہے۔
  • اگر پرانا ڈیٹا متعصب ہے، تو پیش گوئیاں بھی متعصب ہوں گی۔
  • 92% کا یہ ہندسہ رجحانات کو ٹریک کرتا ہے، نہ کہ غلطیوں کی بالکل درست شرح کو۔

یہ OpenAI کو ریگولیٹرز کو یہ دکھانے کا ایک طریقہ فراہم کرتا ہے کہ ان کے پاس ایک حقیقی حفاظتی عمل موجود ہے۔ دیکھیں کہ آیا Anthropic یا Google جیسی دیگر کمپنیاں بھی اسی طرح کے طریقے اپناتی ہیں۔

ماخذ: https://the-decoder.com

مکمل مضمون: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi