ความเชื่อมั่นไม่ใช่ค่าสเกลาร์: Typed Provenance สำหรับ Agent Chains
ผมคิดผิดไป
ในโพสต์ที่แล้ว ผมแนะนำให้ใช้แท็ก true หรือ false แบบง่ายๆ เพื่อติดตามว่าผลลัพธ์ของ AI agent เสื่อมคุณภาพลงหรือไม่ แต่มีผู้อ่านคนหนึ่งชี้ให้เห็นว่าทำไมวิธีนี้ถึงไม่ได้ผล เพราะค่า Boolean นั้นไม่เพียงพอ ความเชื่อมั่นไม่ใช่ตัวเลขเพียงตัวเดียว
หากคุณยุบรวมความเชื่อมั่นให้เหลือเพียงคะแนนเดียว คุณจะล้มเหลว
ลองจินตนาการถึงงานสองอย่างที่แตกต่างกันซึ่งใช้ข้อมูลชุดเดียวกัน:
- ตัวสรุปความ (summarizer) ต้องการโมเดลที่เก่ง แต่สามารถจัดการกับข้อมูลเก่าได้
- ตัวคำนวณราคา (price calculator) ต้องการข้อมูลที่สดใหม่ แต่สามารถใช้โมเดลที่ด้อยกว่าได้
หากข้อมูลนั้นเก่าและมาจากโมเดลที่อ่อนแอ คะแนนความเชื่อมั่นเพียงค่าเดียวจะบีบให้คุณต้องตัดสินใจผิดพลาด ไม่ว่าจะเป็นการปฏิเสธทุกอย่าง หรือปล่อยให้ข้อผิดพลาดที่อันตรายหลุดรอดไป
ทางแก้คือ Typed Provenance
แทนที่จะใช้คะแนนเดียว ให้ใช้เวกเตอร์ (vector) ของข้อมูลแทน เวกเตอร์นี้จะติดตามว่าอะไรที่ผิดพลาดและผิดพลาดอย่างไร โดยคุณจะติดตามแกน (axes) ที่แตกต่างกัน:
- Freshness: ข้อมูลเป็นปัจจุบันแค่ไหน?
- Capability: โมเดลเก่งแค่ไหน?
- Tool: เครื่องมือทำงานได้ปกติหรือไม่?
- Verification: มีการตรวจสอบกับข้อเท็จจริงหรือไม่?
จากนั้น แต่ละขั้นตอนใน chain ของคุณจะใช้กฎของตัวเอง ตัวสรุปความจะดูที่เวกเตอร์แล้วบอกว่า "แบบนี้โอเค" ส่วนตัวคำนวณราคาจะดูเวกเตอร์เดียวกันแล้วบอกว่า "ข้อมูลเก่าเกินไป ห้ามดำเนินการ"
สิ่งนี้เปลี่ยนความเชื่อมั่นจากการเป็นคุณสมบัติของข้อมูล ไปสู่การตัดสินใจโดยผู้ใช้ข้อมูลนั้นๆ
วิธีสร้างสิ่งนี้โดยไม่ทำให้มันซับซ้อนจนเกินไป:
- ใช้ค่าต่ำสุดสำหรับแต่ละแกน อย่าใช้การหาค่าเฉลี่ยของคะแนน เพราะการหาค่าเฉลี่ยจะบดบังข้อผิดพลาด
- เพิ่มแกนใหม่ก็ต่อเมื่อมันทำให้การดำเนินการแก้ไข (recovery action) ของคุณเปลี่ยนไปเท่านั้น
- หากข้อผิดพลาดด้านความสดใหม่หมายความว่าคุณต้องไปดึงข้อมูลใหม่ (refetch) นั่นคือหนึ่งแกน
- หากข้อผิดพลาดด้านความสามารถหมายความว่าคุณต้องรันใหม่ด้วยโมเดลที่ดีกว่า นั่นคือหนึ่งแกน
- หากข้อผิดพลาดสองอย่างนำไปสู่การแก้ไขแบบเดียวกัน ให้รวมพวกมันเข้าด้วยกัน
ความน่าเชื่อถือของ Agent คือปัญหาเรื่อง provenance คุณต้องติดตาม lineage (ลำดับความเป็นมา) ของทุกการตัดสินใจ
Source: https://dev.to/p0rt/trust-isnt-a-scalar-typed-provenance-for-agent-chains-229p
Optional learning community: https://t.me/GyaanSetuAi
