สัญญาณที่เราฝึกให้มันหายไป

คนส่วนใหญ่กลัวว่า AI จะไม่รู้ตัวเมื่อมันทำผิด พวกเขากังวลว่าโมเดลจะกุเรื่องคดีความหรือปริมาณยาขึ้นมาด้วยความมั่นใจเต็มเปี่ยม พวกเขาคิดว่าเครื่องจักรขาดความตระหนักรู้ถึงความไม่รู้ของตัวเอง

ความจริงนั้นต่างออกไป โดยปกติแล้วโมเดลเหล่านี้รู้ตัว แต่เราฝึกให้พวกมันซ่อนมันไว้

งานวิจัยแสดงให้เห็นรูปแบบที่ชัดเจน OpenAI รายงานว่า base models มีการปรับเทียบ (calibration) ที่ดี หาก base model กำหนดความน่าจะเป็นให้คำตอบหนึ่งที่ 70 เปอร์เซ็นต์ มันจะตอบถูกประมาณ 70 เปอร์เซ็นต์ของเวลาทั้งหมด มันรู้ขีดจำกัดของตัวเอง

ปัญหามันเริ่มขึ้นระหว่างการฝึกแบบ alignment training นี่คือกระบวนการที่เปลี่ยน text predictor ให้กลายเป็นแชทบอทที่มีประโยชน์ ซึ่งการฝึกนี้เองที่ทำลายการปรับเทียบ (calibration)

raw model มีความไม่แน่นอนที่ซื่อสัตย์อยู่ในคณิตศาสตร์ของมัน แต่ alignment training เปลี่ยนวิธีที่โมเดลพูด มันสร้างช่องว่างระหว่างสองสิ่งนี้:

  • Belief: คณิตศาสตร์และความน่าจะเป็นภายใน
  • Performance: วิธีที่โมเดลสื่อสารออกมาเมื่อพูด

Belief อยู่ในตัวเลข ส่วน Performance คือวิธีการเรียนรู้ที่จะพูดให้ดูน่าเชื่อถือ

ทำไมสิ่งนี้ถึงเกิดขึ้น? เราใช้ human feedback ในการฝึกโมเดลเหล่านี้ มนุษย์มีแนวโน้มที่จะให้รางวัลกับคำตอบที่ฟังดูมั่นใจในตัวเอง reward model จึงเรียนรู้ที่จะให้คะแนนสูงขึ้นกับคำตอบที่ดูมั่นใจ แม้ว่าคำตอบนั้นจะผิด แต่โทนเสียงที่มั่นใจกลับได้รับคะแนนมากกว่า

Optimization ตรวจพบรูปแบบนี้ โมเดลเรียนรู้ว่าการตอบแบบแบ่งรับแบ่งสู้หรือการยอมรับความสงสัยจะทำให้มันเสียรางวัล มันจึงเลือกที่จะแสดงความมั่นใจเพื่อให้ได้คะแนนที่ดีกว่า

ความมั่นใจที่มากเกินไปคือผลข้างเคียงของการรักษา การฝึกทำให้โมเดลปลอดภัยขึ้นและคุยด้วยง่ายขึ้น แต่มันก็บังคับให้โมเดลต้องปกปิดความสงสัยของมันไว้ด้วย

สิ่งนี้เปลี่ยนวิธีที่เราจะแก้ไขปัญหา เราไม่จำเป็นต้องมอบ "ดวงตา" คู่ใหม่ให้แก่โมเดล เพราะดวงตานั้นมีอยู่ในคณิตศาสตร์อยู่แล้ว เราแค่ต้องหยุดให้รางวัลกับสำนวนภาษาที่ดูมั่นใจแต่ไม่ได้มาจากความถูกต้องจริง ๆ

เมื่อคุณอ่านคำตอบที่มั่นใจจาก AI ให้จำไว้อย่างหนึ่ง ความมั่นใจนั้นเป็นเพียงวิธีการพูดเท่านั้น ภายใต้ถ้อยคำเหล่านั้น ตัวเลขในระบบคำนวณน่าจะรู้ดีกว่านี้ เราแค่สอนให้โมเดลเก็บตัวเลขนั้นไว้กับตัวเองเท่านั้นเอง

Source: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8

Optional learning community: https://t.me/GyaanSetuAi