AgentGateway ਨੂੰ ਇੱਕ ਸਿਮੈਂਟਿਕ ਦਿਮਾਗ ਦੇਣਾ

Translated for your language. Read the original.

AI-assisted draft.

yesterday2min read

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

ਮੇਰੀ AI agent routing ਪਹਿਲਾਂ ਬਹੁਤ ਉਲਝੀ ਹੋਈ ਸੀ।

ਮੈਂ Pi ਨਾਮ ਦਾ ਇੱਕ ਨਿੱਜੀ AI agent ਬਣਾਇਆ ਹੈ। ਇਹ ਮੇਰੇ ਲਿਵਿੰਗ ਰੂਮ ਤੋਂ 24/7 ਚੱਲਦਾ ਹੈ। ਪੈਸੇ ਬਚਾਉਣ ਲਈ, ਮੈਂ ਤਿੰਨ ਵੱਖ-ਵੱਖ models ਦੀ ਵਰਤੋਂ ਕੀਤੀ:

Ollama (Local) ਕੋਡਿੰਗ ਲਈ।
OpenAI ਡੂੰਘੀ ਤਰਕਸ਼ੀਲਤਾ (deep reasoning) ਲਈ।
Gemini ਤੇਜ਼ ਕੰਮਾਂ ਲਈ।

ਸਹੀ model ਚੁਣਨ ਲਈ, ਮੈਂ keyword lists ਵਾਲਾ ਇੱਕ Python script ਵਰਤਿਆ ਸੀ। ਇਹ ਇੱਕ ਸਧਾਰਨ if-else chain ਸੀ।

ਇਹ ਲਗਾਤਾਰ ਫੇਲ ਹੋ ਰਿਹਾ ਸੀ। ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਮੇਰੇ ਖਾਸ keywords ਦੀ ਵਰਤੋਂ ਕੀਤੇ ਬਿਨਾਂ Rust patterns ਬਾਰੇ ਪੁੱਛਦਾ ਸੀ, ਤਾਂ router ਉਸਨੂੰ ਗਲਤ model ਕੋਲ ਭੇਜ ਦਿੰਦਾ ਸੀ। ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਹਿੰਦੀ ਬੋਲਦਾ ਸੀ, ਤਾਂ ਇਹ ਟੁੱਟ ਜਾਂਦਾ ਸੀ।

ਨਤੀਜੇ ਬੁਰੇ ਸਨ:

18% requests ਗਲਤ model ਕੋਲ ਚਲੀਆਂ ਜਾਂਦੀਆਂ ਸਨ।
ਮੈਂ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਮਹਿੰਗੀਆਂ APIs 'ਤੇ ਪੈਸੇ ਬਰਬਾਦ ਕੀਤੇ।
ਮੈਨੂੰ ਹਰ ਹਫ਼ਤੇ ਮੈਨੂਅਲੀ keywords ਅਪਡੇਟ ਕਰਨੇ ਪੈਂਦੇ ਸਨ।

ਮੈਨੂੰ ਇੱਕ ਅਜਿਹੇ ਸਿਸਟਮ ਦੀ ਲੋੜ ਸੀ ਜੋ ਸਿਰਫ਼ keywords ਨੂੰ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਮਤਲਬ (meaning) ਨੂੰ ਵੀ ਸਮਝ ਸਕੇ।

ਮੈਂ AgentGateway ਦੇ ਨਾਲ vLLM Semantic Router 'ਤੇ ਤਬਦੀਲ ਹੋ ਗਿਆ। ਇਸਨੇ ਸਭ ਕੁਝ ਬਦਲ ਦਿੱਤਾ।

Python script ਦੀ ਬਜਾਏ, Semantic Router ਇੱਕ Envoy sidecar ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਹਰ prompt ਦੇ ਇਰਾਦੇ (intent) ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਛੋਟੇ 130MB embedding model ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ keywords ਲਿਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਬੱਸ ਇੱਕ YAML file ਵਿੱਚ ਹਰੇਕ model ਦੇ ਕੰਮ ਦਾ ਵੇਰਵਾ ਲਿਖਦੇ ਹੋ।

ਦੋ ਹਫ਼ਤਿਆਂ ਬਾਅਦ ਦੇ ਨਤੀਜੇ:

ਗਲਤ routed requests 18% ਤੋਂ ਘਟ ਕੇ 3% ਰਹਿ ਗਈਆਂ।
Routing latency 45ms ਤੋਂ ਘਟ ਕੇ 1ms ਹੋ ਗਈ।
ਮਹੀਨਾਵਾਰ API ਲਾਗਤ $24 ਤੋਂ ਘਟ ਕੇ $14 ਹੋ ਗਈ।
ਹੁਣ maintenance ਜ਼ੀਰੋ ਹੈ।

Router ਤੁਹਾਡੇ prompt ਦੀ ਤੁਲਨਾ ਤੁਹਾਡੇ model descriptions ਨਾਲ ਕਰਨ ਲਈ embeddings ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ model ਨੂੰ coding specialist ਵਜੋਂ ਦਰਸਾਉਂਦੇ ਹੋ, ਤਾਂ router coding prompts ਨੂੰ ਆਪਣੇ ਆਪ ਉੱਥੇ ਭੇਜ ਦਿੰਦਾ ਹੈ। ਇਹ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਵੀ ਕੰਮ ਕਰਦਾ ਹੈ।

ਜੇਕਰ router ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਆਨਲਾਈਨ ਰਹਿੰਦਾ ਹੈ। ਮੈਂ ਇੱਕ fail-open policy ਕੌਂਫਿਗ ਕੀਤੀ ਹੈ। ਜੇਕਰ router ਕ੍ਰੈਸ਼ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ requests ਆਪਣੇ ਆਪ Gemini 'ਤੇ ਚਲੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। Agent ਕਦੇ ਵੀ ਕੰਮ ਕਰਨਾ ਬੰਦ ਨਹੀਂ ਕਰਦਾ।

ਮੈਂ Apple Silicon 'ਤੇ ARM64 support ਨਾਲ ਸਬੰਧਤ source code ਵਿੱਚ ਦੋ bugs ਲੱਭੇ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਠੀਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਵੀ ਕੀਤੀ। Open source ਨੂੰ ਇਸੇ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਸਮੱਸਿਆ ਲੱਭਦੇ ਹੋ, ਉਸਦਾ ਹੱਲ (fix) ਦਿੰਦੇ ਹੋ, ਅਤੇ ਪੂਰੀ ਕਮਿਊਨਿਟੀ ਬਿਹਤਰ ਬਣਦੀ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ AI agents ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ keyword matching ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਆਪਣੀ ਲਾਗਤ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਅਤੇ ਆਪਣੇ ਜਵਾਬਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ semantic routing ਦੀ ਵਰਤੋਂ ਕਰੋ।

Source: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

AgentGateway ਨੂੰ ਇੱਕ ਸਿਮੈਂਟਿਕ ਦਿਮਾਗ ਦੇਣਾ

Continue reading

ਮੈਂ ਆਪਣਾ ਖੁਦ ਦਾ AI ਏਜੰਟ ਬਣਾਇਆ ਹੈ। ਇੱਥੇ ਉਹ ਗੱਲ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਕੋਈ ਨਹੀਂ ਦੱਸਦਾ।

AI ਗੇਟਵੇ: ਐਂਟਰਪ੍ਰਾਈਜ਼ LLMs ਲਈ ਕੇਂਦਰੀ ਨਰਵਸ ਸਿਸਟਮ

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗮 𝗦𝗮𝗳𝗲 𝗟𝗼𝗰𝗮𝗹 𝗔𝗜 𝗖𝗼𝗱𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁 𝘄𝗶𝘁𝗵 𝗡𝗼𝗱𝗲.𝗷𝘀

𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

𝗙𝗿𝗼𝗺 𝗣𝗿𝗼𝗺𝗽𝘁𝘀 𝘁𝗼 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗔 𝗙𝗿𝗼𝗻𝘁𝗲𝗻𝗱 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲