ความเชื่อมั่นไม่ใช่ค่าสเกลาร์: Typed Provenance สำหรับ Agent Chains

ผมคิดผิดไป

ในโพสต์ที่แล้ว ผมแนะนำให้ใช้แท็ก true หรือ false แบบง่ายๆ เพื่อติดตามว่าผลลัพธ์ของ AI agent เสื่อมคุณภาพลงหรือไม่ แต่มีผู้อ่านคนหนึ่งชี้ให้เห็นว่าทำไมวิธีนี้ถึงไม่ได้ผล เพราะค่า Boolean นั้นไม่เพียงพอ ความเชื่อมั่นไม่ใช่ตัวเลขเพียงตัวเดียว

หากคุณยุบรวมความเชื่อมั่นให้เหลือเพียงคะแนนเดียว คุณจะล้มเหลว

ลองจินตนาการถึงงานสองอย่างที่แตกต่างกันซึ่งใช้ข้อมูลชุดเดียวกัน:

  • ตัวสรุปความ (summarizer) ต้องการโมเดลที่เก่ง แต่สามารถจัดการกับข้อมูลเก่าได้
  • ตัวคำนวณราคา (price calculator) ต้องการข้อมูลที่สดใหม่ แต่สามารถใช้โมเดลที่ด้อยกว่าได้

หากข้อมูลนั้นเก่าและมาจากโมเดลที่อ่อนแอ คะแนนความเชื่อมั่นเพียงค่าเดียวจะบีบให้คุณต้องตัดสินใจผิดพลาด ไม่ว่าจะเป็นการปฏิเสธทุกอย่าง หรือปล่อยให้ข้อผิดพลาดที่อันตรายหลุดรอดไป

ทางแก้คือ Typed Provenance

แทนที่จะใช้คะแนนเดียว ให้ใช้เวกเตอร์ (vector) ของข้อมูลแทน เวกเตอร์นี้จะติดตามว่าอะไรที่ผิดพลาดและผิดพลาดอย่างไร โดยคุณจะติดตามแกน (axes) ที่แตกต่างกัน:

  • Freshness: ข้อมูลเป็นปัจจุบันแค่ไหน?
  • Capability: โมเดลเก่งแค่ไหน?
  • Tool: เครื่องมือทำงานได้ปกติหรือไม่?
  • Verification: มีการตรวจสอบกับข้อเท็จจริงหรือไม่?

จากนั้น แต่ละขั้นตอนใน chain ของคุณจะใช้กฎของตัวเอง ตัวสรุปความจะดูที่เวกเตอร์แล้วบอกว่า "แบบนี้โอเค" ส่วนตัวคำนวณราคาจะดูเวกเตอร์เดียวกันแล้วบอกว่า "ข้อมูลเก่าเกินไป ห้ามดำเนินการ"

สิ่งนี้เปลี่ยนความเชื่อมั่นจากการเป็นคุณสมบัติของข้อมูล ไปสู่การตัดสินใจโดยผู้ใช้ข้อมูลนั้นๆ

วิธีสร้างสิ่งนี้โดยไม่ทำให้มันซับซ้อนจนเกินไป:

  • ใช้ค่าต่ำสุดสำหรับแต่ละแกน อย่าใช้การหาค่าเฉลี่ยของคะแนน เพราะการหาค่าเฉลี่ยจะบดบังข้อผิดพลาด
  • เพิ่มแกนใหม่ก็ต่อเมื่อมันทำให้การดำเนินการแก้ไข (recovery action) ของคุณเปลี่ยนไปเท่านั้น
  • หากข้อผิดพลาดด้านความสดใหม่หมายความว่าคุณต้องไปดึงข้อมูลใหม่ (refetch) นั่นคือหนึ่งแกน
  • หากข้อผิดพลาดด้านความสามารถหมายความว่าคุณต้องรันใหม่ด้วยโมเดลที่ดีกว่า นั่นคือหนึ่งแกน
  • หากข้อผิดพลาดสองอย่างนำไปสู่การแก้ไขแบบเดียวกัน ให้รวมพวกมันเข้าด้วยกัน

ความน่าเชื่อถือของ Agent คือปัญหาเรื่อง provenance คุณต้องติดตาม lineage (ลำดับความเป็นมา) ของทุกการตัดสินใจ

Source: https://dev.to/p0rt/trust-isnt-a-scalar-typed-provenance-for-agent-chains-229p

Optional learning community: https://t.me/GyaanSetuAi