Cómo reduje nuestra factura de la API de IA a la mitad cumpliendo con los SLA p99
Nuestra factura de IA crecía demasiado rápido. Mi CFO lo llamó una tasa de consumo (burn rate) insostenible. En ese momento, usábamos GPT-4o para todo. Funcionaba, pero los costes eran demasiado altos y la latencia p99 era inconsistente.
Decidí tratar la selección de modelos de IA como un problema de diseño de sistemas. Dejé de buscar el mejor modelo y empecé a buscar el mejor modelo para nuestros SLA específicos.
Primero establecí objetivos claros: • latencia p99 inferior a 1,5 segundos para chat • disponibilidad del 99,9 % • conmutación por error (failover) multirregión • capacidad de rendimiento (throughput) de 3 veces la carga máxima
Una vez que tuve estos números, la solución quedó clara. El modelo más barato por token no siempre es la mejor opción para producción. Si un modelo barato duplica tu latencia, pierdes usuarios.
Comparé muchos modelos. La diferencia de precio era masiva. GPT-4o cuesta 10,00 $ por millón de tokens de salida. GLM-4 Plus cuesta 0,80 $. Nuestras pruebas demostraron que GLM-4 Plus funcionaba casi tan bien como GPT-4o para nuestras tareas específicas, como el resumen y la extracción.
Construí una capa de enrutamiento para gestionar esto. El sistema sigue estas reglas: • Enrutar las solicitudes según el tipo de carga de trabajo • Usar un modelo de respaldo (fallback) si la latencia aumenta repentinamente • Distribuir el tráfico entre regiones • Almacenar en caché las solicitudes frecuentes
También añadí una caché de Redis. La tasa de aciertos (hit rate) alcanzó el 40 % en una semana. Esto redujo nuestro gasto en tokens en consultas repetidas y bajó la latencia de 1,4 segundos a 200 milisegundos.
Los resultados: • El gasto mensual en inferencia cayó un 58 % • La latencia p99 bajó de 1,6 s a 1,18 s • El tiempo de actividad (uptime) se mantuvo en el 99,95 % • La tasa de aciertos de la caché alcanzó el 42 %
Tres lecciones que aprendí:
- Crea tu propia suite de evaluación. No confíes en los benchmarks genéricos. Utiliza tus datos reales de producción.
- Vigila de cerca los límites de tasa (rate limits). El tráfico regional puede causar picos inesperados.
- Crea un interruptor de apagado (kill switch). Un prompt defectuoso puede causar un pico masivo en el uso de tokens. Un límite de tokens máximos nos ahorró 14 000 $ en una ocasión.
Si tu factura de IA es demasiado alta, define primero tu SLA. Crea una suite de evaluación a partir de tráfico real. Luego, analiza los precios de los modelos que actualmente ignoras.
Fuente: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi