𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

📅3 hours ago⏱2 min read

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝗶𝗼𝗻𝗮𝗺𝗼𝘀 𝗰𝗼𝗻 𝗹𝗮 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗱𝗲𝗹 𝗴𝗮𝘁𝗲𝘄𝗮𝘆 𝗱𝘂𝗿𝗮𝗻𝘁𝗲 𝘂𝗻 𝗺𝗲𝘀

Pasé un mes midiendo la sobrecarga del gateway de LLM. Rastré la latencia del proxy hasta el microsegundo. Realicé pruebas de carga a 500, 1000 y 5000 solicitudes por segundo.

Entonces un compañero preguntó: "¿Qué porcentaje del tiempo total de la solicitud representa el gateway?"

Ejecuté la consulta. La respuesta fue 0.3%.

Esto es lo que cuestan las llamadas a la API de LLM en latencia actualmente:

Ahora mira lo que añaden los gateways:

• Llamada directa a la API: 0ms • Proxy de Python: 8-40ms • Proxy de Go/Rust: 1-11ms

El debate es si añades 8ms o 1ms a una llamada que tarda de 3,000ms a 155,000ms. Es como discutir sobre si un cable USB más rápido es necesario para un archivo que se descarga desde un satélite.

Algunos benchmarks afirman tener una "latencia 50 veces más rápida". Estas pruebas suelen ejecutarse en máquinas diminutas con recursos limitados. En producción, escalas horizontalmente. Cuando usas múltiples instancias, la latencia disminuye.

La llamada real al LLM tarda de 50 a 1000 veces más que el gateway. Tu latencia proviene del modelo, no del proxy.

Esto es lo que realmente marcó la diferencia para nosotros:

Elección del modelo: Cambiar de GPT-4o a Gemini 2.5 Flash para tareas sencillas redujo la latencia en un 60%.
Enrutamiento basado en latencia: Enrutar las solicitudes al modelo más rápido disponible redujo nuestra latencia P99 en un 40%.
Caché: Esto redujo las llamadas redundantes en un 30% en nuestros flujos de trabajo.
Longitud del prompt: Recortar los prompts de sistema de 2000 tokens a 800 tokens hizo que las respuestas fueran un 35% más rápidas.
Failover: El cambio automático a otros proveedores mantiene tu servicio funcionando durante las interrupciones.

Si eliges un gateway de LLM, enfócate en estas cosas en su lugar:

Cobertura de proveedores: ¿Soporta los modelos que necesitas?
Enrutamiento y failover: ¿Gestiona las interrupciones?
Seguimiento de costes: ¿Puedes ver qué usuarios consumen tokens?
Ecosistema: ¿Existe una comunidad que ayude cuando algo falla?
Extensibilidad: ¿Puedes añadir lógica personalizada fácilmente?

La sobrecarga del gateway en microsegundos es un titular de marketing. No es un problema de producción. Prefiero tener un gateway que añada 40ms pero rastree mis costes que uno que añada 1ms pero me deje a ciegas.

¿Cuál es tu mayor punto de dolor en la infraestructura de LLM?

Fuente: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

AI Gateway: El sistema nervioso central para los LLM empresariales

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼