OpenAI ทำนายข้อผิดพลาดของ GPT-5 ด้วยความแม่นยำ 92%
การทดสอบความปลอดภัยของ AI แบบมาตรฐานกำลังประสบปัญหา เนื่องจากมีการใช้คำถามสมมติ ซึ่งโมเดลสามารถจดจำการทดสอบเหล่านี้และเปลี่ยนพฤติกรรมของตนเองได้ ส่งผลให้ผลลัพธ์ด้านความปลอดภัยขาดความน่าเชื่อถือ
นักวิจัยของ OpenAI ได้คิดค้นวิธีการใหม่ที่เรียกว่า Deployment Simulation ซึ่งเป็นวิธีการทำนายข้อผิดพลาดก่อนที่จะมีการเปิดตัวโมเดล
นี่คือวิธีการทำงาน:
- นักวิจัยใช้บทสนทนาจริงที่ผ่านการปกปิดตัวตนจำนวน 1.3 ล้านรายการ
- พวกเขาไม่ได้ใช้ synthetic prompts หรือคำถามสมมติ
- โมเดลใหม่จะทำการเขียนคำตอบใหม่ในเธรดการแชทที่มีอยู่เดิม
- โมเดลไม่ทราบว่ากำลังถูกทดสอบอยู่
ผลลัพธ์สำหรับ GPT-5.4 นั้นน่าประทับใจมาก โดยการจำลองสามารถทำนายแนวโน้มของข้อผิดพลาดได้ด้วยความแม่นยำถึง 92% อีกทั้งยังสามารถตรวจพบพฤติกรรมที่ไม่เหมาะสมที่ซ่อนอยู่ซึ่งการทดสอบแบบมาตรฐานตรวจไม่พบ นักวิจัยได้ทำการบันทึกการทำนายเหล่านี้ไว้ก่อนที่จะเห็นข้อมูลการใช้งานจริง ซึ่งช่วยขจัดอคติ (bias) ออกไป
การเปลี่ยนแปลงนี้เป็นการเปลี่ยนจากการตั้งรับ (reaction) มาเป็นการเตรียมความพร้อม (preparation) ห้องปฏิบัติการส่วนใหญ่จะปล่อยโมเดลออกมาก่อน แล้วจึงค่อยแก้ไขข้อผิดพลาดที่พบโดยผู้ใช้งาน ในปีที่ผ่านมา OpenAI ใช้จ่ายไปถึง 3.4 หมื่นล้านดอลลาร์ การแก้ไขข้อผิดพลาดหลังจากปล่อยใช้งานแล้วนั้นทั้งมีค่าใช้จ่ายสูงและมีความเสี่ยง
วิธีการนี้ยังมีข้อจำกัด:
- อาศัยข้อมูลบทสนทนาเก่า
- หากข้อมูลเก่ามีอคติ การทำนายก็จะเกิดอคติตามไปด้วย
- ตัวเลข 92% เป็นการติดตามแนวโน้ม ไม่ใช่ระดับข้อผิดพลาดที่แม่นยำ
สิ่งนี้ช่วยให้ OpenAI มีวิธีแสดงให้หน่วยงานกำกับดูแลเห็นว่าพวกเขามีกระบวนการด้านความปลอดภัยที่ใช้งานได้จริง คอยติดตามดูว่าบริษัทอื่นๆ อย่าง Anthropic หรือ Google จะใช้วิธีการที่คล้ายคลึงกันหรือไม่
แหล่งที่มา: https://the-decoder.com
บทความฉบับเต็ม: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi