Kebolehlihatan dalam AI Agentik

Translated for your language. Read the original.

AI-assisted draft.

Mikroperkhidmatan tradisional telah menyelesaikan masalah kebolehlihatan. Traces menunjukkan laluan. Metrik menunjukkan kependaman (latency). Log menceritakan kisahnya.

AI Agentik memecahkan model ini.

Satu soalan pengguna boleh mencetuskan guardrails, pembacaan sesi, pelbagai panggilan LLM, carian web, dan gelung penaakulan (reasoning loops). Kegagalan selalunya bersifat halus. Sesuatu alatan mungkin menjadi perlahan. Tetingkap konteks mungkin menjadi terlalu besar. Sesuatu model mungkin merosot di bawah beban tanpa mengembalikan ralat.

Saya baru-baru ini menjalankan demo OpenTelemetry NBA Agent untuk menguji cara kami memerhati sistem ini. Berikut adalah apa yang saya pelajari tentang membina ejen AI yang boleh dipercayai.

Tiga Tonggak Kebolehlihatan Ejen

• Traces lebih berharga daripada ujian unit. Prompt yang sama boleh menghasilkan jawapan yang berbeza dalam setiap larian. Anda mesti melihat laluan yang diambil oleh ejen, bukan sekadar teks akhir.

• Kaitkan niat dengan tindakan. Jawapan satu perkataan berfungsi untuk cuaca tetapi gagal untuk nasihat kewangan. Anda perlu menghubungkan keputusan guardrail dan penggunaan alatan dengan niat pengguna.

• Tetapkan garis dasar (baselines) lebih awal. Kemas kini model dan perubahan API mengubah tingkah laku. Anda memerlukan metrik sebelum deployment untuk mengetahui sama ada keadaan bertambah baik atau merosot.

Apa yang Perlu Diukur

Anda tidak boleh hanya memantau panggilan model. Anda mesti melakukan instrumentasi terhadap keseluruhan ekosistem.

Lapisan Model Jejaki nama operasi, butiran penyedia, dan penggunaan token. Pantau tempoh dan sebab tamat (finish reasons).
Alatan dan Pelayan MCP Anggap alatan seperti mikroperkhidmatan. Jejaki kependaman, kadar kejayaan, dan argumen. Jika ejen menjadi perlahan, ia selalunya disebabkan oleh API luaran yang perlahan, bukan LLM.
Guardrails Ukur kekerapan guardrails dicetuskan dan mengikut topik mana. Ini membantu mewajarkan kos lapisan keselamatan kepada pihak kepimpinan.
Memori dan Sesi Perhatikan pembengkakan konteks (context bloat). Peningkatan jumlah token input bagi setiap pusingan boleh menyebabkan lonjakan kos yang besar.

Metrik Utama untuk Papan Pemuka Anda

• Kependaman (Latency): Masa ke Token Pertama (TTFT) dan kependaman pusingan hujung-ke-hujung. • Kos: Jumlah token dan anggaran perbelanjaan bagi setiap sesi. • Kebolehpercayaan: Kadar ralat mengikut jenis span (LLM vs Alatan vs HTTP). • Tingkah Laku: Kedalaman gelung ejen dan kekerapan panggilan alatan.

AI Agentik ialah sistem teragih di mana perancang bersifat probabilistik. Jika anda tidak dapat melihat keseluruhan gelung ejen, anda tidak dapat mengendalikannya dalam pengeluaran (production).

Sumber: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Kebolehlihatan dalam AI Agentik

Continue reading

Gelung Agentik: Panduan Lapangan Praktikal

Gelung Agentik: Panduan Lapangan Praktikal

Menilai AI Agentik dalam Era Penanda Aras LLM