Kumpa AgentGateway Ubongo wa Kimantiki

Usimamizi wa mwelekezo (routing) wa wakala wangu wa AI ulikuwa vurugu sana.

Nilijenga wakala binafsi wa AI aliyeitwa Pi. Hufanya kazi saa 24/7 kutoka sebuleni kwangu. Ili kuokoa pesa, nilitumia mifano (models) mitatu tofauti:

  • Ollama (Local) kwa ajili ya uandishi wa kodi.
  • OpenAI kwa ajili ya uwezo mkubwa wa kufikiri (deep reasoning).
  • Gemini kwa ajili ya kazi za haraka.

Ili kuchagua mfano sahihi, nilitumia skripti ya Python yenye orodha ya maneno muhimu (keywords). Ilikuwa mnyororo rahisi wa if-else.

Ilifeli mara kwa mara. Ikiwa mtumiaji aliuliza kuhusu mifumo ya Rust bila kutumia maneno yangu mahususi, mwelekezo (router) ulipeleka swali kwenye mfano usio sahihi. Ikiwa mtumiaji alizungumza Kihindi, mfumo uliharibika.

Matokeo yalikuwa mabaya:

  • 18% ya maombi yalienda kwenye mfano usio sahihi.
  • Nilipoteza pesa kwenye API ghali kwa ajili ya kazi rahisi.
  • Ilibidi nifanye marekebisho ya maneno muhimu kila wiki kwa mkono.

Nilihitaji mfumo unaoelewa maana, siyo tu maneno muhimu.

Nilihamia kwenye vLLM Semantic Router pamoja na AgentGateway. Hii ilibadilisha kila kitu.

Badala ya skripti ya Python, Semantic Router hufanya kazi kama Envoy sidecar. Inatumia mfano mdogo wa embedding wa 130MB kuelewa nia ya kila prompt. Huandiki maneno muhimu. Unaandika tu maelezo ya kile kila mfano kinachofanya kwenye faili ya YAML.

Matokeo baada ya wiki mbili:

  • Maombi yaliyoelekezwa vibaya yalishuka kutoka 18% hadi 3%.
  • Ucheleweshaji wa mwelekezo (routing latency) ulipungua kutoka 45ms hadi 1ms.
  • Gharama za kila mwezi za API zilipungua kutoka $24 hadi $14.
  • Matengenezo sasa ni sifuri.

Mwelekezo (router) hutumia embeddings kulinganisha prompt yako na maelezo ya mifano yako. Ukielezea mfano kama mtaalamu wa uandishi wa kodi, mwelekezo utatuma prompt za kodi hapo moja kwa moja. Hata hufanya kazi katika lugha tofauti.

Ikiwa mwelekezo utafeli, mfumo utabaki hewani. Niliweka sera ya fail-open. Ikiwa mwelekezo utafeli (crash), maombi yanahamia kwenye Gemini moja kwa moja. Wakala haachi kufanya kazi.

Hata nilipata na kusaidia kurekebisha hitilafu (bugs) mbili kwenye msimbo chanzo (source code) zinazohusiana na uunganishaji wa ARM64 kwenye Apple Silicon. Hivi ndivyo chanzo wazi (open source) kinapaswa kufanya kazi. Unapata tatizo, unachangia marekebisho, na jamii nzima inaboreka.

Ikiwa unajenga wakala wa AI, acha kutumia utambuzi wa maneno muhimu (keyword matching). Tumia mwelekezo wa kimantiki (semantic routing) kudhibiti gharama zako na kuboresha majibu yako.

Chanzo: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi