Kebolehlihatan dalam AI Agentik
Mikroperkhidmatan tradisional telah menyelesaikan masalah kebolehlihatan. Traces menunjukkan laluan. Metrik menunjukkan kependaman (latency). Log menceritakan kisahnya.
AI Agentik memecahkan model ini.
Satu soalan pengguna boleh mencetuskan guardrails, pembacaan sesi, pelbagai panggilan LLM, carian web, dan gelung penaakulan (reasoning loops). Kegagalan selalunya bersifat halus. Sesuatu alatan mungkin menjadi perlahan. Tetingkap konteks mungkin menjadi terlalu besar. Sesuatu model mungkin merosot di bawah beban tanpa mengembalikan ralat.
Saya baru-baru ini menjalankan demo OpenTelemetry NBA Agent untuk menguji cara kami memerhati sistem ini. Berikut adalah apa yang saya pelajari tentang membina ejen AI yang boleh dipercayai.
Tiga Tonggak Kebolehlihatan Ejen
• Traces lebih berharga daripada ujian unit. Prompt yang sama boleh menghasilkan jawapan yang berbeza dalam setiap larian. Anda mesti melihat laluan yang diambil oleh ejen, bukan sekadar teks akhir.
• Kaitkan niat dengan tindakan. Jawapan satu perkataan berfungsi untuk cuaca tetapi gagal untuk nasihat kewangan. Anda perlu menghubungkan keputusan guardrail dan penggunaan alatan dengan niat pengguna.
• Tetapkan garis dasar (baselines) lebih awal. Kemas kini model dan perubahan API mengubah tingkah laku. Anda memerlukan metrik sebelum deployment untuk mengetahui sama ada keadaan bertambah baik atau merosot.
Apa yang Perlu Diukur
Anda tidak boleh hanya memantau panggilan model. Anda mesti melakukan instrumentasi terhadap keseluruhan ekosistem.
Lapisan Model Jejaki nama operasi, butiran penyedia, dan penggunaan token. Pantau tempoh dan sebab tamat (finish reasons).
Alatan dan Pelayan MCP Anggap alatan seperti mikroperkhidmatan. Jejaki kependaman, kadar kejayaan, dan argumen. Jika ejen menjadi perlahan, ia selalunya disebabkan oleh API luaran yang perlahan, bukan LLM.
Guardrails Ukur kekerapan guardrails dicetuskan dan mengikut topik mana. Ini membantu mewajarkan kos lapisan keselamatan kepada pihak kepimpinan.
Memori dan Sesi Perhatikan pembengkakan konteks (context bloat). Peningkatan jumlah token input bagi setiap pusingan boleh menyebabkan lonjakan kos yang besar.
Metrik Utama untuk Papan Pemuka Anda
• Kependaman (Latency): Masa ke Token Pertama (TTFT) dan kependaman pusingan hujung-ke-hujung. • Kos: Jumlah token dan anggaran perbelanjaan bagi setiap sesi. • Kebolehpercayaan: Kadar ralat mengikut jenis span (LLM vs Alatan vs HTTP). • Tingkah Laku: Kedalaman gelung ejen dan kekerapan panggilan alatan.
AI Agentik ialah sistem teragih di mana perancang bersifat probabilistik. Jika anda tidak dapat melihat keseluruhan gelung ejen, anda tidak dapat mengendalikannya dalam pengeluaran (production).
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
