এক মাস ধরে আমরা গেটওয়ে ল্যাটেন্সি (Gateway Latency) নিয়ে গবেষণা করেছি

আমি এক মাস ধরে LLM গেটওয়ের ওভারহেড (overhead) পরিমাপ করেছি। আমি মাইক্রোসেকেন্ড পর্যন্ত প্রক্সি ল্যাটেন্সি ট্র্যাক করেছি। আমি প্রতি সেকেন্ডে ৫০০, ১০০০ এবং ৫০০০ রিকোয়েস্টের ওপর লোড টেস্ট চালিয়েছি।

তারপর একজন সহকর্মী জিজ্ঞেস করলেন: "মোট রিকোয়েস্ট সময়ের কত শতাংশ গেটওয়ে দখল করে?"

আমি কোয়েরিটি চালালাম। উত্তর ছিল ০.৩%।

বর্তমানে LLM API কলগুলোতে ল্যাটেন্সির খরচ কেমন হয় তা নিচে দেওয়া হলো:

• GPT-4o: 850ms TTFT | মোট ২-৮ সেকেন্ড • Claude Sonnet 4: 900ms TTFT | মোট ৩-১৫ সেকেন্ড • Claude Fable 5: 147s TTFT | মোট ১৫৫ সেকেন্ড • GPT-4.1: 1,100ms TTFT | মোট ৩-১২ সেকেন্ড • Gemini 2.5 Flash: 500ms TTFT | মোট ১-৫ সেকেন্ড

এবার দেখুন গেটওয়েগুলো কতটুকু যোগ করে:

• সরাসরি API কল: 0ms • Python প্রক্সি: 8-40ms • Go/Rust প্রক্সি: 1-11ms

বিতর্কটি হলো আপনি ৩,০০০ms থেকে ১৫৫,০০০ms সময় নেওয়া একটি কলে ৮ms নাকি ১ms যোগ করছেন তা নিয়ে। এটি অনেকটা স্যাটেলাইট থেকে ফাইল ডাউনলোড করার সময় একটি দ্রুততর USB কেবল নিয়ে তর্কা করার মতো।

কিছু বেঞ্চমার্ক "৫০ গুণ দ্রুত ল্যাটেন্সি" দাবি করে। এই পরীক্ষাগুলো প্রায়শই সীমিত রিসোর্সযুক্ত ছোট মেশিনে চালানো হয়। প্রোডাকশনে, আপনি অনুভূমিকভাবে (horizontally) স্কেল করেন। যখন আপনি একাধিক ইনস্ট্যান্স ব্যবহার করেন, তখন ল্যাটেন্সি কমে যায়।

প্রকৃত LLM কল গেটওয়ের চেয়ে ৫০ থেকে ১০০০ গুণ বেশি সময় নেয়। আপনার ল্যাটেন্সি মডেল থেকে আসে, প্রক্সি থেকে নয়।

আমাদের ক্ষেত্রে আসলে যা উল্লেখযোগ্য পরিবর্তন এনেছে তা হলো:

আপনি যদি একটি LLM গেটওয়ে বেছে নেন, তবে পরিবর্তে এই বিষয়গুলোর দিকে নজর দিন:

মাইক্রোসেকেন্ডে গেটওয়ে ওভারহেড হলো একটি মার্কেটিং হেডলাইন মাত্র। এটি প্রোডাকশনের কোনো সমস্যা নয়। আমি এমন একটি গেটওয়ে পছন্দ করব যা ৪০ms যোগ করে কিন্তু আমার খরচ ট্র্যাক করে, তার চেয়ে এমন একটি গেটওয়ে ভালো নয় যা মাত্র ১ms যোগ করে কিন্তু আমাকে খরচ সম্পর্কে কোনো ধারণা দেয় না।

আপনার LLM ইনফ্রাস্ট্রাকচারের সবচেয়ে বড় সমস্যা বা চ্যালেঞ্জ কোনটি?

উৎস: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi