การทดสอบระบบ Agentic AI
การสร้าง AI agent นั้นง่าย แต่การทำให้แน่ใจว่ามันจะไม่ทำงานผิดพลาดจนควบคุมไม่ได้นั้นเป็นเรื่องยาก คุณจำเป็นต้องมีกรอบการทดสอบที่เข้มงวดเพื่อเปลี่ยนจากตัวต้นแบบ (prototype) ไปสู่การใช้งานจริง (production)
ปฏิบัติตาม 8 ขั้นตอนนี้เพื่อเพิ่มความปลอดภัยให้กับ agent ของคุณ:
Stage 1: Component tests เขียน unit tests สำหรับทุกเลเยอร์ ทดสอบ research agent, เครื่องมือการค้นหา (search tools) และหน่วยความจำ (memory) ของคุณ ใช้ข้อมูลจำลอง (mock data) ที่ได้รับการอนุมัติจากผู้เชี่ยวชาญ ทำการ stub external APIs เช่น Shopify หรือ Meta หาก API ขัดข้อง การทดสอบของคุณไม่ควรล้มเหลวเพราะสาเหตุนั้น
Stage 2: The prompt repository สร้างคลังเก็บ prompt ที่มีประสิทธิภาพ จัดหมวดหมู่ตามสายงานธุรกิจ (business area) รวมกรณีที่เกิดความล้มเหลว เช่น prompt injection และการตอบกลับจากเครื่องมือที่ว่างเปล่า (empty tool responses) ทดสอบการสนทนาแบบหลายรอบ (multi-turn conversations) เพื่อให้แน่ใจว่าหน่วยความจำทำงานได้ถูกต้อง และตรวจสอบว่าข้อมูลผู้ใช้ไม่รั่วไหลระหว่างเซสชัน (sessions)
Stage 3: Coverage and trajectory ตรวจสอบว่าเครื่องมือทุกอย่างถูกเรียกใช้งานจริงหรือไม่ จากนั้นตรวจสอบเส้นทาง (path) ที่ agent ใช้ การเรียกใช้เครื่องมือเพียงอย่างเดียวนั้นไม่เพียงพอ แต่ agent ต้องใช้เครื่องมือที่ถูกต้อง พร้อมกับ argument ที่ถูกต้อง และในลำดับที่ถูกต้องด้วย
Stage 4: Versioned runs กำกับทุกการรันด้วยหมายเลขเวอร์ชัน จัดเก็บทุกการตอบกลับ รันแต่ละ prompt หลายๆ ครั้งเพื่อรองรับความไม่แน่นอนของโมเดล (model randomness) ติดตามอัตราการผ่าน (pass rate), ค่าใช้จ่าย (cost), จำนวน tokens และความหน่วง (latency) ความแม่นยำคือสิ่งที่ธุรกิจต้องแลกเปลี่ยน (trade-off) กับความเร็วและราคา
Stage 5: Ground truth store เก็บคำตอบที่ผ่านการตรวจสอบแล้วสำหรับทุก prompt กำหนดสิทธิ์ว่าใครสามารถแก้ไขคำตอบเหล่านี้ได้ หากคุณไม่ปรับปรุง ground truths เมื่อผลิตภัณฑ์ของคุณเปลี่ยนไป การทดสอบของคุณจะล้มเหลว (ซึ่งเป็นการล้มเหลวที่ถูกต้องแล้ว)
Stage 6: The evaluator ให้คะแนนการรันโดยเทียบกับ ground truth ของคุณ ใช้ LLM judge เพื่อตรวจสอบความแม่นยำ (precision) และความถูกต้อง (correctness) ระวังเรื่องอคติของตัวตัดสิน (judge bias) และเปรียบเทียบคะแนนจาก LLM กับการติดป้ายกำกับโดยมนุษย์ (human labels) เพื่อให้แน่ใจในความแม่นยำ
Stage 7: Human review สร้าง dashboard สำหรับกรณีที่ได้คะแนนต่ำ ให้มนุษย์เป็นผู้แก้ไขข้อผิดพลาด และใช้การแก้ไขโดยมนุษย์เหล่านี้ในการฝึกฝน (train) LLM judge ของคุณ
Stage 8: CI/CD integration รัน component tests ในทุกๆ pull request และรันชุดการทดสอบทั้งหมด (full suite) ในทุกคืน กำหนดเกณฑ์ (threshold) ที่จะระงับการ deployment หากคะแนนลดลง
Optional learning community: https://t.me/GyaanSetuAi
