Udhibiti wa Kiwango cha Maombi (Rate Limiting) na Circuit Breakers katika Mifumo ya AI
Mifumo ya AI iliyosambazwa (Distributed AI systems) ni migumu. Inashughulikia kiasi kikubwa cha maombi na utendaji mzito wa modeli (model inference). Unategemea makundi ya GPU (GPU clusters), kanzidata (databases), na API za upande wa tatu. Kitu kimoja kibaya au ongezeko la ghafla la trafiki linaweza kusababisha mfumo wako wote kusimama.
Unahitaji zana mbili kulinda mfumo wako: rate limiting na circuit breakers.
Rate Limiting Rate limiting inazuia mtumiaji mmoja au huduma moja kutumia rasilimali nyingi kupita kiasi. Inahakikisha upatikanaji wa haki kwa kila mtu.
Mbinu za kawaida:
- Token Bucket: Bora kwa AI. Inaruhusu ongezeko la muda mfupi la shughuli huku ikidumisha wastani thabiti.
- Leaky Bucket: Inadumisha mtiririko thabiti wa maombi.
- Fixed Window: Ni rahisi lakini inaweza kusababisha ongezeko la ghafla mwanzoni mwa dirisha jipya.
- Sliding Window: Ina usahihi zaidi kuliko madirisha yaliyofungwa (fixed windows).
Kidokezo cha kitaalamu kwa AI: Weka kikomo kwa idadi ya tokeni, si maombi pekee. Prompt moja yenye tokeni 4,000 hutumia rasilimali nyingi zaidi kuliko prompt yenye tokeni 10.
Circuit Breakers Circuit breaker inafuatilia simu (calls