เอเจนต์ของผมรายงานว่า 12 แต่ตัวเลขจริงคือ 13
ผมกำลังสร้าง coding agent ที่รันแบบ local โดยใช้ Claude ในการวางแผน และใช้ local models ในการสร้างโค้ด เมื่อเร็วๆ นี้ ผมลองให้เอเจนต์จัดการงานง่ายๆ อย่างการนับ log เฉพาะเจาะจง
เอเจนต์รายงานว่า 12 ผมรู้สึกเหนื่อยกับการต้องมานั่งจดบันทึกเอง เลยเกือบจะยอมรับตัวเลขนั้นไปแล้ว แต่แล้วผมก็ลองตรวจสอบด้วยตัวเองผ่าน terminal และพบว่าตัวเลขจริงคือ 13
เอเจนต์พลาดไปหนึ่งรายการเพราะมันมีรูปแบบที่ไม่สม่ำเสมอ เอเจนต์ไม่ได้เกิดอาการ hallucinate มันแค่ "เกือบถูก" ซึ่งนี่คือข้อผิดพลาดประเภทที่อันตรายที่สุด เพราะมันดูสมเหตุสมผลพอที่จะทำให้เราเชื่อใจได้
ที่แย่กว่านั้นคือ ตัวชี้วัดสรุปผลสุดท้ายดูเหมือนจะถูกต้อง ขั้นตอนการปัดเศษและการจัดกลุ่มได้ซ่อนความผิดพลาดนั้นไว้ หากผมดูแค่รายงานสรุปผล ผมคงไม่เห็นข้อผิดพลาดเลย แต่ข้อมูลดิบ (raw data) นั้นผิด เมื่อการวัดค่าดิบของคุณผิดพลาด รายงานทุกฉบับหลังจากนั้นก็จะได้รับผลกระทบจากความผิดพลาดนั้นไปด้วย
ผมได้เรียนรู้บทเรียนราคาแพงเกี่ยวกับความเชื่อใจและการวัดผล
หากคุณปล่อยให้ระบบที่ทำงานเป็นคนตัดสินผลงานนั้นด้วย คุณกำลังมีปัญหาแล้ว คุณกำลังทำให้ผู้ถูกสอบกลายเป็นผู้คุมสอบ โมเดลแบบ probabilistic ไม่ควรเป็นแหล่งข้อมูลความจริงเพียงหนึ่งเดียวของคุณ
ตอนนี้ผมจึงใช้กฎใหม่สองข้อ:
มนุษย์ต้องเป็นพยานให้กับการทำงานอัตโนมัติก่อน ก่อนที่ผมจะเชื่อใจระบบที่วัดผลด้วยตัวเอง ผมจะทำการนับแบบ deterministic ด้วยตัวเองก่อน ผมจะเฝ้าดูตัวเลขที่แสดงออกมาใน terminal ผมจะผ่อนปรนกฎนี้ก็ต่อเมื่อเครื่องจักรและมนุษย์ให้ผลลัพธ์ที่ตรงกันอย่างสมบูรณ์จากการรันหลายๆ ครั้งเท่านั้น
กำหนดการวัดผลให้ยึดกับหน่วยที่สังเกตเห็นได้ ผมต้องมั่นใจว่าเอเจนต์นับสิ่งที่มนุษย์สามารถมองเห็นได้จริงๆ หากขอบเขตของข้อมูล (population) คลุมเครือ ตัวเลขก็จะคลาดเคลื่อน หากขอบเขตของข้อมูลชัดเจน เราก็จะสามารถเปรียบเทียบผลลัพธ์ได้อย่างแม่นยำ
วิธีนี้อาจจะช้ากว่า และไม่สามารถ scale ได้ตลอดไป แต่นี่คือวิธีที่คุณจะสร้างรากฐานแห่งความเชื่อใจขึ้นมาได้
คุณจะให้ AI เขียนโค้ดก็ได้ คุณจะให้ AI ทำการวิเคราะห์ก็ได้ แต่สำหรับตัวเลขที่มีความสำคัญ กระบวนการแบบ deterministic จะต้องเป็นพยานคนสุดท้ายเสมอ
แล้วคุณจะขีดเส้นแบ่งตรงไหน? เมื่อไหร่ที่คุณจะตัดสินใจว่าตัวเลขนั้นสำคัญพอที่จะต้องตรวจสอบด้วยมือ?
Source: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
Optional learning community: https://t.me/GyaanSetuAi
