𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

माझे AI एजंट राउटिंग (routing) खूप गोंधळलेले होते.

मी 'Pi' नावाचा एक वैयक्तिक AI एजंट तयार केला. तो माझ्या लिव्हिंग रूममधून २४/७ चालतो. पैसे वाचवण्यासाठी, मी तीन वेगवेगळ्या मॉडेल्सचा वापर केला:

  • कोडिंगसाठी Ollama (Local).
  • सखोल तर्कासाठी (deep reasoning) OpenAI.
  • जलद कामांसाठी Gemini.

योग्य मॉडेल निवडण्यासाठी, मी कीवर्ड लिस्टसह (keyword lists) एक पायथन (Python) स्क्रिप्ट वापरली होती. ती एक साधी if-else साखळी होती.

ती सतत फेल होत होती. जर एखाद्या वापरकर्त्याने माझे विशिष्ट कीवर्ड न वापरता 'Rust patterns' बद्दल विचारले, तर राउटरने ते चुकीच्या मॉडेलकडे पाठवले. जर वापरकर्त्याने हिंदीत बोलले, तर ते पूर्णपणे कोलमडून पडत असे.

परिणाम वाईट होते:

  • १८% विनंत्या चुकीच्या मॉडेलकडे गेल्या.
  • साध्या कामांसाठी मी महागड्या APIs वर पैसे वाया घालवले.
  • मला दर आठवड्याला मॅन्युअली कीवर्ड अपडेट करावे लागत होते.

मला अशा सिस्टमची गरज होती जी केवळ कीवर्ड्स नाही, तर अर्थ समजून घेईल.

मी AgentGateway सोबत vLLM Semantic Router वापरण्यास सुरुवात केली. यामुळे सर्व काही बदलले.

पायथन स्क्रिप्टऐवजी, Semantic Router हा 'Envoy sidecar' म्हणून काम करतो. प्रत्येक प्रॉम्प्टचा (prompt) हेतू समजून घेण्यासाठी तो १३०MB चे एक लहान 'embedding model' वापरतो. तुम्हाला कीवर्ड्स लिहावे लागत नाहीत. तुम्ही फक्त एका YAML फाईलमध्ये प्रत्येक मॉडेल काय करते याचे वर्णन लिहिता.

दोन आठवड्यांनंतरचे निकाल:

  • चुकीच्या पद्धतीने राउट झालेल्या विनंत्या १८% वरून ३% पर्यंत खाली आल्या.
  • राउटिंग लॅटन्सी (latency) ४५ms वरून १ms पर्यंत कमी झाली.
  • मासिक API खर्च $२४ वरून $१४ पर्यंत कमी झाला.
  • आता मेंटेनन्स (maintenance) शून्य आहे.

राउटर तुमच्या प्रॉम्प्टची तुमच्या मॉडेल वर्णनांशी तुलना करण्यासाठी 'embeddings' वापरतो. जर तुम्ही एखाद्या मॉडेलचे वर्णन 'कोडिंग स्पेशालिस्ट' असे केले, तर राउटर कोडिंग प्रॉम्प्ट्स आपोआप तिथेच पाठवतो. हे वेगवेगळ्या भाषांमध्येही काम करते.

जर राउटर फेल झाला, तरी सिस्टम ऑनलाइन राहते. मी 'fail-open policy' कॉन्फिगर केली आहे. जर राउटर क्रॅश झाला, तर विनंत्या आपोआप Gemini कडे वळवल्या जातात. एजंटचे काम कधीही थांबत नाही.

मी Apple Silicon वरील ARM64 सपोर्टशी संबंधित सोर्स कोडमधील दोन बग्स (bugs) शोधले आणि ते सुधारण्यास मदत केली. ओपन सोर्स असेच काम करायला हवे. तुम्ही एखादी समस्या शोधता, त्यावर उपाय (fix) देण्यास योगदान देता आणि संपूर्ण कम्युनिटी अधिक चांगली होते.

जर तुम्ही AI एजंट्स बनवत असाल, तर कीवर्ड मॅचिंग वापरणे थांबवा. तुमचे खर्च नियंत्रित करण्यासाठी आणि उत्तरे सुधारण्यासाठी 'semantic routing' वापरा.

Source: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Optional learning community: https://t.me/GyaanSetuAi