𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝗶𝗼𝗻𝗮𝗺𝗼𝘀 𝗰𝗼𝗻 𝗹𝗮 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗱𝗲𝗹 𝗴𝗮𝘁𝗲𝘄𝗮𝘆 𝗱𝘂𝗿𝗮𝗻𝘁𝗲 𝘂𝗻 𝗺𝗲𝘀

Pasé un mes midiendo la sobrecarga del gateway de LLM. Rastré la latencia del proxy hasta el microsegundo. Realicé pruebas de carga a 500, 1000 y 5000 solicitudes por segundo.

Entonces un compañero preguntó: "¿Qué porcentaje del tiempo total de la solicitud representa el gateway?"

Ejecuté la consulta. La respuesta fue 0.3%.

Esto es lo que cuestan las llamadas a la API de LLM en latencia actualmente:

• GPT-4o: 850ms TTFT | 2-8s Total • Claude Sonnet 4: 900ms TTFT | 3-15s Total • Claude Fable 5: 147s TTFT | 155s Total • GPT-4.1: 1,100ms TTFT | 3-12s Total • Gemini 2.5 Flash: 500ms TTFT | 1-5s Total

Ahora mira lo que añaden los gateways:

• Llamada directa a la API: 0ms • Proxy de Python: 8-40ms • Proxy de Go/Rust: 1-11ms

El debate es si añades 8ms o 1ms a una llamada que tarda de 3,000ms a 155,000ms. Es como discutir sobre si un cable USB más rápido es necesario para un archivo que se descarga desde un satélite.

Algunos benchmarks afirman tener una "latencia 50 veces más rápida". Estas pruebas suelen ejecutarse en máquinas diminutas con recursos limitados. En producción, escalas horizontalmente. Cuando usas múltiples instancias, la latencia disminuye.

La llamada real al LLM tarda de 50 a 1000 veces más que el gateway. Tu latencia proviene del modelo, no del proxy.

Esto es lo que realmente marcó la diferencia para nosotros:

Si eliges un gateway de LLM, enfócate en estas cosas en su lugar:

La sobrecarga del gateway en microsegundos es un titular de marketing. No es un problema de producción. Prefiero tener un gateway que añada 40ms pero rastree mis costes que uno que añada 1ms pero me deje a ciegas.

¿Cuál es tu mayor punto de dolor en la infraestructura de LLM?

Fuente: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi