𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝗶𝗼𝗻𝗮𝗺𝗼𝘀 𝗰𝗼𝗻 𝗹𝗮 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗱𝗲𝗹 𝗴𝗮𝘁𝗲𝘄𝗮𝘆 𝗱𝘂𝗿𝗮𝗻𝘁𝗲 𝘂𝗻 𝗺𝗲𝘀
Pasé un mes midiendo la sobrecarga del gateway de LLM. Rastré la latencia del proxy hasta el microsegundo. Realicé pruebas de carga a 500, 1000 y 5000 solicitudes por segundo.
Entonces un compañero preguntó: "¿Qué porcentaje del tiempo total de la solicitud representa el gateway?"
Ejecuté la consulta. La respuesta fue 0.3%.
Esto es lo que cuestan las llamadas a la API de LLM en latencia actualmente:
• GPT-4o: 850ms TTFT | 2-8s Total • Claude Sonnet 4: 900ms TTFT | 3-15s Total • Claude Fable 5: 147s TTFT | 155s Total • GPT-4.1: 1,100ms TTFT | 3-12s Total • Gemini 2.5 Flash: 500ms TTFT | 1-5s Total
Ahora mira lo que añaden los gateways:
• Llamada directa a la API: 0ms • Proxy de Python: 8-40ms • Proxy de Go/Rust: 1-11ms
El debate es si añades 8ms o 1ms a una llamada que tarda de 3,000ms a 155,000ms. Es como discutir sobre si un cable USB más rápido es necesario para un archivo que se descarga desde un satélite.
Algunos benchmarks afirman tener una "latencia 50 veces más rápida". Estas pruebas suelen ejecutarse en máquinas diminutas con recursos limitados. En producción, escalas horizontalmente. Cuando usas múltiples instancias, la latencia disminuye.
La llamada real al LLM tarda de 50 a 1000 veces más que el gateway. Tu latencia proviene del modelo, no del proxy.
Esto es lo que realmente marcó la diferencia para nosotros:
- Elección del modelo: Cambiar de GPT-4o a Gemini 2.5 Flash para tareas sencillas redujo la latencia en un 60%.
- Enrutamiento basado en latencia: Enrutar las solicitudes al modelo más rápido disponible redujo nuestra latencia P99 en un 40%.
- Caché: Esto redujo las llamadas redundantes en un 30% en nuestros flujos de trabajo.
- Longitud del prompt: Recortar los prompts de sistema de 2000 tokens a 800 tokens hizo que las respuestas fueran un 35% más rápidas.
- Failover: El cambio automático a otros proveedores mantiene tu servicio funcionando durante las interrupciones.
Si eliges un gateway de LLM, enfócate en estas cosas en su lugar:
- Cobertura de proveedores: ¿Soporta los modelos que necesitas?
- Enrutamiento y failover: ¿Gestiona las interrupciones?
- Seguimiento de costes: ¿Puedes ver qué usuarios consumen tokens?
- Ecosistema: ¿Existe una comunidad que ayude cuando algo falla?
- Extensibilidad: ¿Puedes añadir lógica personalizada fácilmente?
La sobrecarga del gateway en microsegundos es un titular de marketing. No es un problema de producción. Prefiero tener un gateway que añada 40ms pero rastree mis costes que uno que añada 1ms pero me deje a ciegas.
¿Cuál es tu mayor punto de dolor en la infraestructura de LLM?
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi