𝗛𝗲𝗻𝘁𝗶𝗸𝗮𝗻 𝗟𝗼𝗻𝗷𝗮𝗸𝗮𝗻 𝗕𝗶𝗮𝘆𝗮 𝗟𝗟𝗠 𝗦𝗲𝗯𝗲𝗹𝘂𝗺 𝗣𝗲𝗻𝗮𝗴𝗶𝗵𝗮𝗻

Anda menggunakan OTel dan OpenInference. Anda melihat jumlah token. Anda tidak melihat tim mana yang menghabiskan uang.

Gunakan tiga atribut ini.

  • team.id: Beri tag pada span di gateway. Ini menunjukkan biaya per tim.
  • feature.id: Beri tag pada fitur. Ini menunjukkan fitur mana yang mengalami lonjakan.
  • llm.model: Pisahkan model murah dari model yang mahal.

Jalankan kueri harian di Grafana. Lihat persentil ke-95 dari output token. Kelompokkan berdasarkan tim, fitur, dan model.

Atur peringatan (alert) untuk lonjakan 2x lipat dari rata-rata 7 hari. Ini berhasil mendeteksi retry loop pada kuartal lalu. Dasbor utama melewatkannya. Total pengeluaran tetap di bawah anggaran. Satu tim menghabiskan biaya dua kali lipat.

Lewati user.id demi privasi. Lewati request.id agar ukuran data tetap kecil.

Sumber: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Komunitas belajar opsional: https://t.me/GyaanSetuAi