𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Leer el original.

AI-assisted draft.

hace 3 semanas1min de lectura

Detén los picos de costos de LLM antes de la facturación

Usas OTel y OpenInference. Ves el recuento de tokens. No ves qué equipo gasta el dinero.

Usa estos tres atributos.

team.id: Etiqueta los spans en el gateway. Esto muestra el costo por equipo.
feature.id: Etiqueta la funcionalidad. Esto muestra qué funcionalidad tiene picos.
llm.model: Separa los modelos económicos de los costosos.

Ejecuta una consulta diaria en Grafana. Observa el percentil 95 de los tokens de salida. Agrupa por equipo, funcionalidad y modelo.

Configura una alerta para un salto de 2x en el promedio de 7 días. Esto detectó un bucle de reintentos el trimestre pasado. El dashboard principal no lo detectó. El gasto total se mantuvo bajo el presupuesto. Un equipo gastó el doble.

Omite user.id por privacidad. Omite request.id para mantener los datos ligeros.

Fuente: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Seguir leyendo

¿Por qué tus agentes están quemando tokens?

Optimización de costos para sistemas LLM

Por qué los costos de la IA se disparan y cómo controlarlos

Cómo reduje nuestra factura de la API de IA a la mitad mientras cumplía con el 99% de los SLA

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹