ความมั่นใจของ Qwen 2.5 7B นั้นเชื่อถือไม่ได้
โมเดลภาษาขนาดใหญ่ (LLMs) มักจะ "โกหก" เกี่ยวกับระดับความมั่นใจของตัวเอง
ผลการศึกษาใหม่จาก University of Minnesota เผยให้เห็นข้อบกพร่องสำคัญใน Qwen 2.5 7B เมื่อโมเดลนี้ทำงานกับข้อมูลทางคลินิก ค่าคะแนนความมั่นใจ (confidence scores) ของมันกลับแทบจะไม่เปลี่ยนแปลงเลย
โมเดลรายงานค่าความมั่นใจระหว่าง 0.856 ถึง 0.937 ซึ่งเกิดขึ้นแม้ในขณะที่โมเดลตอบผิดก็ตาม
ผลลัพธ์สำคัญจากการวิจัย:
- โมเดลขาดการปรับเทียบทางญาณวิทยา (epistemically uncalibrated) โดยความมั่นใจของมันขึ้นอยู่กับรูปแบบของ prompt มากกว่าความถูกต้องแม่นยำ
- ความมั่นใจสูงไม่ได้หมายความว่าความแม่นยำจะสูงตามไปด้วย
- โมเดลจะตอบผิดด้วยความมั่นใจสูงสุดในกรณีที่ง่ายที่สุด
- โมเดลแบบดั้งเดิมอย่าง XGBoost ให้ประสิทธิภาพที่ดีกว่า LLMs เมื่อต้องจัดการกับข้อมูลตารางที่มีโครงสร้าง (structured tabular data)
ทำไมถึงเป็นเช่นนี้?
LLMs เรียนรู้จากภาษาธรรมชาติ พวกมันจึงขาดสัญชาตญาณในการทำความเข้าใจแถวข้อมูลตัวเลขทางคลินิก และมักจะพึ่งพาเพียงรูปแบบทางภาษาแทนที่จะใช้หลักฐานจากข้อมูลจริง
สิ่งนี้สร้างความเสี่ยงในด้านการดูแลสุขภาพ หากคุณเชื่อถือคะแนนความมั่นใจของโมเดล คุณอาจยอมรับคำตอบที่ผิดว่าเป็นข้อเท็จจริง
นักวิจัยพบวิธีแก้ไขปัญหานี้โดยไม่ต้องฝึกสอนโมเดลใหม่ (retraining):
- ผสมผสานการใช้ few-shot examples เข้ากับการฉีด SHAP attribution (SHAP attribution injection)
- วิธีนี้ช่วยเพิ่มความแม่นยำจาก 49% เป็น 75.3%
- ใช้ตัวปรับเทียบข้ามโมเดล (cross-model calibrator)
- การเปรียบเทียบ LLM กับโมเดล ML แบบดั้งเดิม จะช่วยให้คุณตรวจพบได้ว่าเมื่อใดที่ LLM เริ่มไม่น่าเชื่อถือ
- วิธีนี้ช่วยลดอัตราความผิดพลาดลงได้อย่างมีนัยสำคัญ
บทสรุปนั้นเรียบง่าย คือ อย่าเชื่อถือคะแนนความมั่นใจที่โมเดลแสดงออกมาเมื่อต้องจัดการกับข้อมูลที่มีโครงสร้าง แต่ควรใช้ระบบแบบไฮบริด (hybrid pipelines) โดยปล่อยให้โมเดลแบบดั้งเดิมจัดการกับตัวเลข และใช้ LLMs สำหรับการใช้เหตุผลและการอธิบาย
ที่มา: https://arxiv.org/abs/2606.19509
ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi