Stop Asking LLMs If Their Sources Are Real

คุณขอรายการแหล่งที่มาข้อมูลจาก AI มันจะให้ชื่อเรื่อง ชื่อผู้แต่ง และ DOI มา ทุกอย่างดูสมบูรณ์แบบ แต่แล้วคุณกลับพบว่าครึ่งหนึ่งของข้อมูลเหล่านั้นไม่มีอยู่จริง

DOI นั้นไม่นำไปสู่สิ่งใดเลย งานวิจัยชิ้นนั้นไม่เคยถูกเขียนขึ้นด้วยซ้ำ

สัญชาตญาณของคุณคือการถามโมเดลว่า: "คุณแน่ใจนะว่านี่คือของจริง?" AI จะตอบว่าใช่ มันตอบว่าใช่เสมอ เปรียบเหมือนคุณกำลังถามนักปลอมแปลงว่าผลงานของเขาเป็นของแท้หรือไม่

LLM ไม่ได้ใช้ฐานข้อมูลของงานวิจัย แต่มันทำนายคำถัดไปในลำดับข้อความ สำหรับ AI แล้ว การอ้างอิงเป็นเพียงรูปแบบ (pattern) อย่างหนึ่ง มันรู้ว่าการอ้างอิงต้องมีชื่อ ปี และตัวเลขสิบหลัก มันเลียนแบบรูปลักษณ์ของแหล่งที่มาที่แท้จริงโดยที่ไม่ได้บรรจุความจริงเอาไว้เลย

เลิกขอให้โมเดลตรวจสอบงานของตัวเอง เพราะมันทำไม่ได้ด้วยเหตุผลสองประการ:

  • มันไม่สามารถเข้าถึงทะเบียนข้อมูลแบบเรียลไทม์ได้ มันเพียงแค่สร้างข้อความที่ดูน่าเชื่อถือขึ้นมาเท่านั้น
  • มันมีอคติที่จะยืนยันในสิ่งที่มันได้พูดไปแล้ว

คุณต้องใช้เครื่องมือภายนอกในการตรวจสอบข้อมูล นี่คือตัวกรอง 3 ขั้นตอนสำหรับการเขียนเชิงเทคนิค:

  1. การมีอยู่ (Existence). ตรวจสอบ DOI กับ API อย่าง Crossref หาก API ส่งข้อผิดพลาด 404 กลับมา แสดงว่าแหล่งที่มานั้นเป็นของปลอม DOI ที่ถูกเมคขึ้นมาจะไม่มีวันค้นหาพบ

  2. ความน่าเชื่อถือ (Credibility). แหล่งที่มาอาจมีอยู่จริงแต่ไร้ค่า คุณควรตรวจสอบว่าวารสารหรือการประชุมวิชาการนั้นได้รับการยอมรับหรือไม่ DOI ที่ถูกต้องไม่ได้การันตีคุณภาพเสมอไป

  3. ความถูกต้องแม่นยำ (Fidelity). งานวิจัยนั้นสนับสนุนข้ออ้างของคุณจริงหรือไม่? คุณต้องอ่านเนื้อหาข้างใน อย่าทึกทักเอาเองว่าบทคัดย่อ (abstract) จะครอบคลุมทุกรายละเอียด การอ้างอิงของจริงที่ถูกนำมาใช้เพื่อสนับสนุนข้ออ้างที่ผิด ก็ยังถือว่าเป็นเรื่องโกหกอยู่ดี

เรื่องนี้ไม่ได้ใช้แค่กับงานวิจัยทางวิชาการเท่านั้น หาก AI อ้างอิง JIRA ticket, หมายเลข CVE หรือ code commit คุณต้องตรวจสอบกับระบบจริง

ข้อผิดพลาดที่ใหญ่ที่สุดในการออกแบบสถาปัตยกรรม AI คือการเชื่อใจให้โมเดลตรวจสอบตัวเอง การตรวจสอบต้องเป็นขั้นตอนที่แยกต่างหาก และต้องเชื่อมต่อกับแหล่งข้อมูลความจริงภายนอก (external source of truth) ก่อนที่ผู้ใช้จะเห็นผลลัพธ์

อย่าพยายามทำให้โมเดลซื่อสัตย์ขึ้น เพราะพวกมันคือเครื่องมือสร้างข้อความ และพวกมันจะเกิดอาการหลอน (hallucinate) อยู่เสมอ ทางที่ดีคือ เลิกเชื่อคำพูดของพวกมันเสียที

การอ้างอิงที่คุณไม่สามารถตรวจสอบกับทะเบียนข้อมูลได้ ไม่ใช่การอ้างอิง แต่มันคือการเดาสุ่มในชุดกาวน์นักวิทยาศาสตร์

แหล่งที่มา: https://dev.to/ohugonnot/stop-asking-the-llm-whether-its-source-is-real-2oaa

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi