Bir Ay Boyunca Gateway Gecikmesine Takıntılı Hale Geldik

Bir ayımı LLM gateway yükünü ölçerek geçirdim. Proxy gecikmesini mikrosaniye düzeyine kadar takip ettim. Saniyede 500, 1000 ve 5000 istek içeren yük testleri gerçekleştirdim.

Sonra bir ekip arkadaşım sordu: "Toplam istek süresinin yüzde kaçı gateway'den kaynaklanıyor?"

Sorguyu çalıştırdım. Cevap %0,3'tü.

Şu anda LLM API çağrılarının gecikme maliyeti şöyle:

• GPT-4o: 850ms TTFT | Toplam 2-8s • Claude Sonnet 4: 900ms TTFT | Toplam 3-15s • Claude Fable 5: 147s TTFT | Toplam 155s • GPT-4.1: 1.100ms TTFT | Toplam 3-12s • Gemini 2.5 Flash: 500ms TTFT | Toplam 1-5s

Şimdi gateway'lerin ne kadar eklediğine bakın:

• Doğrudan API çağrısı: 0ms • Python proxy: 8-40ms • Go/Rust proxy: 1-11ms

Tartışılan konu, 3.000ms ile 155.000ms arasında süren bir çağrıya 8ms mi yoksa 1ms mi eklediğinizdir. Bu, uydudan dosya indiren bir bağlantı için daha hızlı bir USB kablosu hakkında tartışmaya benzer.

Bazı benchmarklar "50 kat daha hızlı gecikme" iddia ediyor. Bu testler genellikle sınırlı kaynaklara sahip çok küçük makinelerde çalıştırılıyor. Üretim ortamında (production) ise yatayda ölçeklenirsiniz. Birden fazla örnek (instance) kullandığınızda gecikme düşer.

Asıl LLM çağrısı, gateway'den 50 ila 1000 kat daha uzun sürer. Gecikmeniz proxy'den değil, modelden kaynaklanır.

Bizim için asıl fark yaratan noktalar şunlardı:

Eğer bir LLM gateway seçecekseniz, bunun yerine şu noktalara odaklanın:

Source: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

Optional learning community: https://t.me/GyaanSetuAi