AI அமைப்புகளில் Rate Limiting மற்றும் Circuit Breakers

விநியோகிக்கப்பட்ட (Distributed) AI அமைப்புகள் சிக்கலானவை. அவை மிகப்பெரிய கோரிக்கை அளவுகளையும் (request volumes) மற்றும் கனமான மாடல் இன்ஃபரன்ஸ் (model inference) பணிகளையும் கையாளுகின்றன. நீங்கள் GPU கிளஸ்டர்கள், தரவுத்தளங்கள் மற்றும் மூன்றாம் தரப்பு API-களைச் சார்ந்துள்ளீர்கள். ஒரு தவறான கூறு அல்லது திடீரென அதிகரிக்கும் போக்குவரத்து (traffic spike) உங்கள் முழு அமைப்பையும் முடக்கிவிடக்கூடும்.

உங்கள் அமைப்பைப் பாதுகாக்க உங்களுக்கு இரண்டு கருவிகள் தேவை: rate limiting மற்றும் circuit breakers.

Rate Limiting Rate limiting என்பது ஒரு தனி பயனர் அல்லது சேவை அதிகப்படியான வளங்களைப் பயன்படுத்துவதைத் தடுக்கிறது. இது அனைவருக்கும் சமமான அணுகலை உறுதி செய்கிறது.

பொதுவான முறைகள்:

AI-க்கான ஒரு முக்கிய குறிப்பு: கோரிக்கைகளை (requests) மட்டும் கணக்கிடாமல், டோக்கன் எண்ணிக்கையின் (token count) அடிப்படையில் கட்டுப்படுத்துங்கள். 10 டோக்கன்கள் கொண்ட ஒரு ப்ராம்ப்ட்டை விட, 4,000 டோக்கன்கள் கொண்ட ஒரு ப்ராம்ப்ட் அதிக வளங்களைப் பயன்படுத்தும்.

Circuit Breakers ஒரு circuit breaker என்பது உங்கள் GPU சர்வர் அல்லது vector database போன்ற சேவைகளுக்கான அழைப்புகளைக் கண்காணிக்கிறது. ஒரு சேவை பலமுறை தோல்வியடைந்தால், breaker திறக்கப்படும் (opens). இது அந்தச் சேவைக்கான அனைத்து அழைப்புகளையும் உடனடியாக நிறுத்திவிடும். இது முழு அமைப்பும் முடங்குவதைத் தடுக்கிறது.

மின்சுற்று மூன்று நிலைகளைக் கொண்டுள்ளது:

சிறந்த நடைமுறைகள்:

Source: https://dev.to/biao_lin_14b493a4944b1361/rate-limiting-and-circuit-breakers-in-distributed-ai-systems-1p56

Optional learning community: https://t.me/GyaanSetuAi