𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

دیروز2min read

In this article

درگاه‌های LLM: مسیریابی، جایگزین‌ها و کش معنایی

یک خط کد می‌تواند بودجه هوش مصنوعی شما را نابود کند.

اگر یک ارائه‌دهنده مدل (model provider) را به‌صورت ثابت (hardcode) در اپلیکیشن خود قرار دهید، با سه ریسک روبرو هستید:

هزینه‌های بالا برای وظایف ساده.
قطع کامل سرویس در زمان از کار افتادن یک ارائه‌دهنده.
پرداخت هزینه برای یک پاسخ مشابه، هزاران بار.

یک درگاه LLM (LLM gateway) مانند یک پروکسی بین اپلیکیشن شما و مدل‌هایتان عمل می‌کند. این درگاه سه وظیفه حیاتی را بر عهده دارد: مسیریابی (routing)، جایگزین‌ها (fallbacks) و کش کردن (caching).

۱. مسیریابی (Routing)

اکثر اپلیکیشن‌ها هر درخواست را به گران‌ترین مدل ارسال می‌کنند. این کار اتلاف منابع است. از مسیریابی استفاده کنید تا وظایف ساده را به مدل‌های ارزان‌تر بفرستید.

مسیریابی ایستا (Static routing): استفاده از قوانینی بر اساس سطوح کاربری یا نوع وظایف.
مسیریابی بر اساس هزینه/تاخیر (Cost/Latency routing): انتخاب سریع‌ترین یا ارزان‌ترین مدل موجود.
مسیریابی بر اساس دشواری (Difficulty routing): استفاده از یک مدل کوچک برای تصمیم‌گیری در مورد اینکه آیا یک وظیفه به مدل بزرگی نیاز دارد یا خیر. تحقیقات نشان می‌دهد که مسیریابی هوشمند می‌تواند ضمن حفظ کیفیت بالا، هزینه‌ها را بیش از ۸۰٪ کاهش دهد.

۲. جایگزین‌ها (Fallbacks)

ارائه‌دهندگان دچار مشکل می‌شوند؛ آن‌ها با محدودیت نرخ درخواست (rate limits) مواجه می‌شوند یا از دسترس خارج می‌شوند. یک درگاه، زنجیره‌ای از جایگزین‌ها (fallback chain) را مدیریت می‌کند. اگر مدل اصلی شما از کار افتاد، درگاه به‌طور خودکار مدل بعدی را در لیست شما امتحان می‌کند. برای جلوگیری از بدتر شدن وضعیت قطعی‌ها، از این الگوها استفاده کنید:

بازگشت نمایی (Exponential backoff): فاصله انداختن بین تلاش‌های مجدد برای جلوگیری از فشار بیش از حد به ارائه‌دهنده‌ای که دچار مشکل شده است.
قطع‌کننده مدار (Circuit breaking): متوقف کردن ارسال ترافیک به ارائه‌دهنده‌ای که دچار مشکل شده است برای یک بازه زمانی مشخص. این کار اجازه می‌دهد به جای انتظار برای اتمام زمان انتظار (timeout)، بلافاصله فرآیند جایگزینی (failover) انجام شود.

۳. کش معنایی (Semantic Caching)

کش کردن استاندارد به دنبال تطابق دقیق متن است. این روش برای LLMها شکست می‌خورد، زیرا کاربران سوالات را با عبارات متفاوتی بیان می‌کنند. کش معنایی به معنا توجه می‌کند. این روش یک پرامپت را به یک بردار (vector) تبدیل کرده و بررسی می‌کند که آیا سوال مشابهی در پایگاه داده شما وجود دارد یا خیر.

مزیت: یک برخورد موفق با کش (cache hit) تنها ۵ میلی‌ثانیه زمان می‌برد و هزینه‌ای ندارد ($0). اما فراخوانی مدل چندین ثانیه طول می‌کشد و هزینه توکن دارد.
خطر: تنظیم آستانه شباهت (similarity threshold) روی مقدار خیلی پایین باعث پاسخ‌های اشتباه می‌شود. اگر آستانه خیلی منعطف باشد، سوالی درباره «بازنشانی رمز عبور» ممکن است پاسخی درباره «تغییر ایمیل» برگرداند.

ساختن یا خریدن؟

ساختن: بهترین گزینه برای نیازهای ساده مانند جایگزین‌های پایه یا کش کردن با تطابق دقیق.
خریدن/متن‌باز: زمانی که به کش معنایی، قابلیت مشاهده (observability) و منطق پیچیده جایگزینی نیاز دارید، از ابزارهایی مانند LiteLLM یا سرویس‌های مدیریت‌شده استفاده کنید.

یک درگاه، یک زیرساخت است، نه یک ویژگی. از پراکنده کردن فراخوانی‌های مدل در سراسر کد خودداری کنید. یک درگاه در مقابل آن‌ها قرار دهید تا هزینه‌ها و قابلیت اطمینان خود را کنترل کنید.

Source: https://dev.to/nazar_boyko/llm-gateways-routing-fallbacks-and-semantic-caching-1n2b

Optional learning community: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

درگاه‌های LLM: مسیریابی، جایگزین‌ها و کش معنایی

۱. مسیریابی (Routing)

۲. جایگزین‌ها (Fallbacks)

۳. کش معنایی (Semantic Caching)

ساختن یا خریدن؟

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

دروازه هوش مصنوعی: سیستم عصبی مرکزی برای LLMهای سازمانی

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

بخشیدن یک مغز معنایی به AgentGateway

𝗧𝗵𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜