Observability ใน Agentic AI
Microservices แบบดั้งเดิมได้แก้ปัญหาเรื่อง observability ไปแล้ว Traces แสดงเส้นทาง Metrics แสดงค่าความหน่วง (latency) และ Logs บอกเล่าเรื่องราวที่เกิดขึ้น
Agentic AI ทำลายโมเดลนี้
คำถามเดียวจากผู้ใช้สามารถกระตุ้นให้เกิด guardrails, การอ่าน session, การเรียก LLM หลายครั้ง, การค้นหาเว็บ และลูปการใช้เหตุผล (reasoning loops) ความล้มเหลวมักจะเกิดขึ้นอย่างแนบเนียน เครื่องมือบางอย่างอาจทำงานช้า Context window อาจขยายใหญ่เกินไป หรือโมเดลอาจมีประสิทธิภาพลดลงภายใต้ภาระงาน (load) โดยไม่ส่งข้อความแจ้งข้อผิดพลาด (error) ออกมา
เมื่อเร็วๆ นี้ ผมได้รันตัวอย่าง OpenTelemetry NBA Agent เพื่อทดสอบวิธีการสังเกตการณ์ระบบเหล่านี้ และนี่คือสิ่งที่ผมได้เรียนรู้เกี่ยวกับการสร้าง AI agent ที่เชื่อถือได้
3 เสาหลักของ Agent Observability
• Traces มีค่ามากกว่า unit tests เพราะ prompt เดียวกันอาจให้คำตอบที่แตกต่างกันในการรันแต่ละครั้ง คุณต้องเห็นเส้นทางที่ agent เดินไป ไม่ใช่แค่ข้อความสุดท้ายที่ได้
• เชื่อมโยงเจตนา (intent) เข้ากับการกระทำ คำตอบเพียงคำเดียวอาจใช้ได้กับเรื่องสภาพอากาศ แต่ใช้ไม่ได้กับคำแนะนำทางการเงิน คุณจำเป็นต้องเชื่อมโยงการตัดสินใจของ guardrail และการใช้งานเครื่องมือเข้ากับเจตนาของผู้ใช้
• กำหนดค่ามาตรฐาน (baselines) ตั้งแต่เนิ่นๆ การอัปเดตโมเดลและการเปลี่ยนแปลง API ส่งผลต่อพฤติกรรม คุณจำเป็นต้องมี metrics ก่อนการ deployment เพื่อให้ทราบว่าสิ่งต่างๆ ดีขึ้นหรือแย่ลง
สิ่งที่ควรวัดผล
คุณไม่สามารถตรวจสอบแค่การเรียกโมเดลเท่านั้น แต่คุณต้องทำ instrumentation ให้กับทั้งระบบนิเวศ (ecosystem)
The Model Layer ติดตามชื่อ operation, รายละเอียดของผู้ให้บริการ (provider) และการใช้งาน token รวมถึงตรวจสอบระยะเวลา (duration) และเหตุผลในการสิ้นสุด (finish reasons)
Tools และ MCP Servers ปฏิบัติต่อเครื่องมือเหมือนเป็น microservices ติดตาม latency, อัตราความสำเร็จ และ arguments หาก agent ทำงานช้า มักจะเป็นเพราะ external API ที่ช้า ไม่ใช่ตัว LLM
Guardrails วัดความถี่ที่ guardrails ทำงานและหัวข้อที่เกี่ยวข้อง สิ่งนี้จะช่วยสนับสนุนความคุ้มค่าของเลเยอร์ด้านความปลอดภัย (safety layers) ต่อผู้บริหาร
Memory และ Sessions ระวังปัญหา context bloat จำนวน input token ที่เพิ่มขึ้นต่อการโต้ตอบ (turn) สามารถนำไปสู่ค่าใช้จ่ายที่พุ่งสูงขึ้นอย่างมหาศาล
Metrics สำคัญสำหรับ Dashboard ของคุณ
• Latency: Time to First Token (TTFT) และ latency ของการโต้ตอบแบบ end-to-end • Cost: จำนวน token ทั้งหมดและค่าใช้จ่ายโดยประมาณต่อ session • Reliability: อัตราข้อผิดพลาดแบ่งตาม span kind (LLM vs Tool vs HTTP) • Behavior: ความลึกของ agent loop และความถี่ในการเรียกใช้เครื่องมือ
Agentic AI คือระบบแบบกระจาย (distributed system) ที่ตัววางแผน (planner) ทำงานแบบความน่าจะเป็น (probabilistic) หากคุณไม่สามารถมองเห็น agent loop ทั้งหมดได้ คุณก็ไม่สามารถนำมันไปใช้งานจริง (production) ได้
Optional learning community: https://t.me/GyaanSetuAi
