এক মাস ধরে আমরা গেটওয়ে ল্যাটেন্সি (Gateway Latency) নিয়ে গবেষণা করেছি
আমি এক মাস ধরে LLM গেটওয়ের ওভারহেড (overhead) পরিমাপ করেছি। আমি মাইক্রোসেকেন্ড পর্যন্ত প্রক্সি ল্যাটেন্সি ট্র্যাক করেছি। আমি প্রতি সেকেন্ডে ৫০০, ১০০০ এবং ৫০০০ রিকোয়েস্টের ওপর লোড টেস্ট চালিয়েছি।
তারপর একজন সহকর্মী জিজ্ঞেস করলেন: "মোট রিকোয়েস্ট সময়ের কত শতাংশ গেটওয়ে দখল করে?"
আমি কোয়েরিটি চালালাম। উত্তর ছিল ০.৩%।
বর্তমানে LLM API কলগুলোতে ল্যাটেন্সির খরচ কেমন হয় তা নিচে দেওয়া হলো:
• GPT-4o: 850ms TTFT | মোট ২-৮ সেকেন্ড • Claude Sonnet 4: 900ms TTFT | মোট ৩-১৫ সেকেন্ড • Claude Fable 5: 147s TTFT | মোট ১৫৫ সেকেন্ড • GPT-4.1: 1,100ms TTFT | মোট ৩-১২ সেকেন্ড • Gemini 2.5 Flash: 500ms TTFT | মোট ১-৫ সেকেন্ড
এবার দেখুন গেটওয়েগুলো কতটুকু যোগ করে:
• সরাসরি API কল: 0ms • Python প্রক্সি: 8-40ms • Go/Rust প্রক্সি: 1-11ms
বিতর্কটি হলো আপনি ৩,০০০ms থেকে ১৫৫,০০০ms সময় নেওয়া একটি কলে ৮ms নাকি ১ms যোগ করছেন তা নিয়ে। এটি অনেকটা স্যাটেলাইট থেকে ফাইল ডাউনলোড করার সময় একটি দ্রুততর USB কেবল নিয়ে তর্কা করার মতো।
কিছু বেঞ্চমার্ক "৫০ গুণ দ্রুত ল্যাটেন্সি" দাবি করে। এই পরীক্ষাগুলো প্রায়শই সীমিত রিসোর্সযুক্ত ছোট মেশিনে চালানো হয়। প্রোডাকশনে, আপনি অনুভূমিকভাবে (horizontally) স্কেল করেন। যখন আপনি একাধিক ইনস্ট্যান্স ব্যবহার করেন, তখন ল্যাটেন্সি কমে যায়।
প্রকৃত LLM কল গেটওয়ের চেয়ে ৫০ থেকে ১০০০ গুণ বেশি সময় নেয়। আপনার ল্যাটেন্সি মডেল থেকে আসে, প্রক্সি থেকে নয়।
আমাদের ক্ষেত্রে আসলে যা উল্লেখযোগ্য পরিবর্তন এনেছে তা হলো:
- মডেল নির্বাচন: সাধারণ কাজের জন্য GPT-4o থেকে Gemini 2.5 Flash-এ পরিবর্তন করলে ল্যাটেন্সি ৬০% কমে গেছে।
- ল্যাটেন্সি-ভিত্তিক রাউটিং: রিকোয়েস্টগুলোকে দ্রুততম উপলব্ধ মডেলে রাউট করার ফলে আমাদের P99 ল্যাটেন্সি ৪০% কমেছে।
- ক্যাশিং (Caching): এটি আমাদের ওয়ার্কফ্লোতে অপ্রয়োজনীয় কল ৩০% কমিয়ে দিয়েছে।
- প্রম্পটের দৈর্ঘ্য: সিস্টেম প্রম্পট ২০০০ টোকেন থেকে কমিয়ে ৮০০ টোকেন করায় রেসপন্স ৩৫% দ্রুত হয়েছে।
- ফেইলওভার (Failover): আউটটেজ বা বিভ্রাটের সময় স্বয়ংক্রিয়ভাবে অন্য প্রোভাইডারে সুইচ করা আপনার সার্ভিস সচল রাখে।
আপনি যদি একটি LLM গেটওয়ে বেছে নেন, তবে পরিবর্তে এই বিষয়গুলোর দিকে নজর দিন:
- প্রোভাইডার কভারেজ: এটি কি আপনার প্রয়োজনীয় মডেলগুলোকে সাপোর্ট করে?
- রাউটিং এবং ফেইলওভার: এটি কি আউটটেজ সামলাতে পারে?
- খরচ ট্র্যাকিং: কোন ব্যবহারকারীরা কত টোকেন খরচ করছেন তা কি আপনি দেখতে পারেন?
- ইকোসিস্টেম: কোনো সমস্যা হলে সাহায্য করার জন্য কি কোনো কমিউনিটি আছে?
- এক্সটেনসিবিলিটি (Extensibility): আপনি কি সহজেই কাস্টম লজিক যোগ করতে পারেন?
মাইক্রোসেকেন্ডে গেটওয়ে ওভারহেড হলো একটি মার্কেটিং হেডলাইন মাত্র। এটি প্রোডাকশনের কোনো সমস্যা নয়। আমি এমন একটি গেটওয়ে পছন্দ করব যা ৪০ms যোগ করে কিন্তু আমার খরচ ট্র্যাক করে, তার চেয়ে এমন একটি গেটওয়ে ভালো নয় যা মাত্র ১ms যোগ করে কিন্তু আমাকে খরচ সম্পর্কে কোনো ধারণা দেয় না।
আপনার LLM ইনফ্রাস্ট্রাকচারের সবচেয়ে বড় সমস্যা বা চ্যালেঞ্জ কোনটি?
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi