𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

📅3 hours ago⏱2 min read

এক মাস ধরে আমরা গেটওয়ে ল্যাটেন্সি (Gateway Latency) নিয়ে গবেষণা করেছি

আমি এক মাস ধরে LLM গেটওয়ের ওভারহেড (overhead) পরিমাপ করেছি। আমি মাইক্রোসেকেন্ড পর্যন্ত প্রক্সি ল্যাটেন্সি ট্র্যাক করেছি। আমি প্রতি সেকেন্ডে ৫০০, ১০০০ এবং ৫০০০ রিকোয়েস্টের ওপর লোড টেস্ট চালিয়েছি।

তারপর একজন সহকর্মী জিজ্ঞেস করলেন: "মোট রিকোয়েস্ট সময়ের কত শতাংশ গেটওয়ে দখল করে?"

আমি কোয়েরিটি চালালাম। উত্তর ছিল ০.৩%।

বর্তমানে LLM API কলগুলোতে ল্যাটেন্সির খরচ কেমন হয় তা নিচে দেওয়া হলো:

এবার দেখুন গেটওয়েগুলো কতটুকু যোগ করে:

• সরাসরি API কল: 0ms • Python প্রক্সি: 8-40ms • Go/Rust প্রক্সি: 1-11ms

বিতর্কটি হলো আপনি ৩,০০০ms থেকে ১৫৫,০০০ms সময় নেওয়া একটি কলে ৮ms নাকি ১ms যোগ করছেন তা নিয়ে। এটি অনেকটা স্যাটেলাইট থেকে ফাইল ডাউনলোড করার সময় একটি দ্রুততর USB কেবল নিয়ে তর্কা করার মতো।

কিছু বেঞ্চমার্ক "৫০ গুণ দ্রুত ল্যাটেন্সি" দাবি করে। এই পরীক্ষাগুলো প্রায়শই সীমিত রিসোর্সযুক্ত ছোট মেশিনে চালানো হয়। প্রোডাকশনে, আপনি অনুভূমিকভাবে (horizontally) স্কেল করেন। যখন আপনি একাধিক ইনস্ট্যান্স ব্যবহার করেন, তখন ল্যাটেন্সি কমে যায়।

প্রকৃত LLM কল গেটওয়ের চেয়ে ৫০ থেকে ১০০০ গুণ বেশি সময় নেয়। আপনার ল্যাটেন্সি মডেল থেকে আসে, প্রক্সি থেকে নয়।

আমাদের ক্ষেত্রে আসলে যা উল্লেখযোগ্য পরিবর্তন এনেছে তা হলো:

মডেল নির্বাচন: সাধারণ কাজের জন্য GPT-4o থেকে Gemini 2.5 Flash-এ পরিবর্তন করলে ল্যাটেন্সি ৬০% কমে গেছে।
ল্যাটেন্সি-ভিত্তিক রাউটিং: রিকোয়েস্টগুলোকে দ্রুততম উপলব্ধ মডেলে রাউট করার ফলে আমাদের P99 ল্যাটেন্সি ৪০% কমেছে।
ক্যাশিং (Caching): এটি আমাদের ওয়ার্কফ্লোতে অপ্রয়োজনীয় কল ৩০% কমিয়ে দিয়েছে।
প্রম্পটের দৈর্ঘ্য: সিস্টেম প্রম্পট ২০০০ টোকেন থেকে কমিয়ে ৮০০ টোকেন করায় রেসপন্স ৩৫% দ্রুত হয়েছে।
ফেইলওভার (Failover): আউটটেজ বা বিভ্রাটের সময় স্বয়ংক্রিয়ভাবে অন্য প্রোভাইডারে সুইচ করা আপনার সার্ভিস সচল রাখে।

আপনি যদি একটি LLM গেটওয়ে বেছে নেন, তবে পরিবর্তে এই বিষয়গুলোর দিকে নজর দিন:

প্রোভাইডার কভারেজ: এটি কি আপনার প্রয়োজনীয় মডেলগুলোকে সাপোর্ট করে?
রাউটিং এবং ফেইলওভার: এটি কি আউটটেজ সামলাতে পারে?
খরচ ট্র্যাকিং: কোন ব্যবহারকারীরা কত টোকেন খরচ করছেন তা কি আপনি দেখতে পারেন?
ইকোসিস্টেম: কোনো সমস্যা হলে সাহায্য করার জন্য কি কোনো কমিউনিটি আছে?
এক্সটেনসিবিলিটি (Extensibility): আপনি কি সহজেই কাস্টম লজিক যোগ করতে পারেন?

মাইক্রোসেকেন্ডে গেটওয়ে ওভারহেড হলো একটি মার্কেটিং হেডলাইন মাত্র। এটি প্রোডাকশনের কোনো সমস্যা নয়। আমি এমন একটি গেটওয়ে পছন্দ করব যা ৪০ms যোগ করে কিন্তু আমার খরচ ট্র্যাক করে, তার চেয়ে এমন একটি গেটওয়ে ভালো নয় যা মাত্র ১ms যোগ করে কিন্তু আমাকে খরচ সম্পর্কে কোনো ধারণা দেয় না।

আপনার LLM ইনফ্রাস্ট্রাকচারের সবচেয়ে বড় সমস্যা বা চ্যালেঞ্জ কোনটি?

উৎস: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

Continue reading

AI SaaS-এর জন্য LLM গেটওয়ে

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

এই RAG সেটআপ ব্যবহার করে আমি কীভাবে আমার AI খরচ ৬০% কমিয়েছি

এআই গেটওয়ে: এন্টারপ্রাইজ LLM-এর জন্য কেন্দ্রীয় স্নায়ুতন্ত্র

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼