ความมั่นใจของ Qwen 2.5 7B ไม่น่าเชื่อถือ

Translated for your language. Read the original.

AI-assisted draft.

14 ชั่วโมงที่ผ่านมา1min read

ความมั่นใจของ Qwen 2.5 7B นั้นเชื่อถือไม่ได้

โมเดลภาษาขนาดใหญ่ (LLMs) มักจะ "โกหก" เกี่ยวกับระดับความมั่นใจของตัวเอง

ผลการศึกษาใหม่จาก University of Minnesota เผยให้เห็นข้อบกพร่องสำคัญใน Qwen 2.5 7B เมื่อโมเดลนี้ทำงานกับข้อมูลทางคลินิก ค่าคะแนนความมั่นใจ (confidence scores) ของมันกลับแทบจะไม่เปลี่ยนแปลงเลย

โมเดลรายงานค่าความมั่นใจระหว่าง 0.856 ถึง 0.937 ซึ่งเกิดขึ้นแม้ในขณะที่โมเดลตอบผิดก็ตาม

ผลลัพธ์สำคัญจากการวิจัย:

โมเดลขาดการปรับเทียบทางญาณวิทยา (epistemically uncalibrated) โดยความมั่นใจของมันขึ้นอยู่กับรูปแบบของ prompt มากกว่าความถูกต้องแม่นยำ
ความมั่นใจสูงไม่ได้หมายความว่าความแม่นยำจะสูงตามไปด้วย
โมเดลจะตอบผิดด้วยความมั่นใจสูงสุดในกรณีที่ง่ายที่สุด
โมเดลแบบดั้งเดิมอย่าง XGBoost ให้ประสิทธิภาพที่ดีกว่า LLMs เมื่อต้องจัดการกับข้อมูลตารางที่มีโครงสร้าง (structured tabular data)

ทำไมถึงเป็นเช่นนี้?

LLMs เรียนรู้จากภาษาธรรมชาติ พวกมันจึงขาดสัญชาตญาณในการทำความเข้าใจแถวข้อมูลตัวเลขทางคลินิก และมักจะพึ่งพาเพียงรูปแบบทางภาษาแทนที่จะใช้หลักฐานจากข้อมูลจริง

สิ่งนี้สร้างความเสี่ยงในด้านการดูแลสุขภาพ หากคุณเชื่อถือคะแนนความมั่นใจของโมเดล คุณอาจยอมรับคำตอบที่ผิดว่าเป็นข้อเท็จจริง

นักวิจัยพบวิธีแก้ไขปัญหานี้โดยไม่ต้องฝึกสอนโมเดลใหม่ (retraining):

ผสมผสานการใช้ few-shot examples เข้ากับการฉีด SHAP attribution (SHAP attribution injection)
วิธีนี้ช่วยเพิ่มความแม่นยำจาก 49% เป็น 75.3%
ใช้ตัวปรับเทียบข้ามโมเดล (cross-model calibrator)
การเปรียบเทียบ LLM กับโมเดล ML แบบดั้งเดิม จะช่วยให้คุณตรวจพบได้ว่าเมื่อใดที่ LLM เริ่มไม่น่าเชื่อถือ
วิธีนี้ช่วยลดอัตราความผิดพลาดลงได้อย่างมีนัยสำคัญ

บทสรุปนั้นเรียบง่าย คือ อย่าเชื่อถือคะแนนความมั่นใจที่โมเดลแสดงออกมาเมื่อต้องจัดการกับข้อมูลที่มีโครงสร้าง แต่ควรใช้ระบบแบบไฮบริด (hybrid pipelines) โดยปล่อยให้โมเดลแบบดั้งเดิมจัดการกับตัวเลข และใช้ LLMs สำหรับการใช้เหตุผลและการอธิบาย

ที่มา: https://arxiv.org/abs/2606.19509

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi

ความมั่นใจของ Qwen 2.5 7B ไม่น่าเชื่อถือ

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

พื้นฐานช่องโหว่ของ LLM 101

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁

LLM ของคุณตอบถูก แต่ถูกด้วยเหตุผลที่ถูกต้องหรือไม่?