𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻
ਮੇਰੀ AI agent routing ਪਹਿਲਾਂ ਬਹੁਤ ਉਲਝੀ ਹੋਈ ਸੀ।
ਮੈਂ Pi ਨਾਮ ਦਾ ਇੱਕ ਨਿੱਜੀ AI agent ਬਣਾਇਆ ਹੈ। ਇਹ ਮੇਰੇ ਲਿਵਿੰਗ ਰੂਮ ਤੋਂ 24/7 ਚੱਲਦਾ ਹੈ। ਪੈਸੇ ਬਚਾਉਣ ਲਈ, ਮੈਂ ਤਿੰਨ ਵੱਖ-ਵੱਖ models ਦੀ ਵਰਤੋਂ ਕੀਤੀ:
- Ollama (Local) ਕੋਡਿੰਗ ਲਈ।
- OpenAI ਡੂੰਘੀ ਤਰਕਸ਼ੀਲਤਾ (deep reasoning) ਲਈ।
- Gemini ਤੇਜ਼ ਕੰਮਾਂ ਲਈ।
ਸਹੀ model ਚੁਣਨ ਲਈ, ਮੈਂ keyword lists ਵਾਲਾ ਇੱਕ Python script ਵਰਤਿਆ ਸੀ। ਇਹ ਇੱਕ ਸਧਾਰਨ if-else chain ਸੀ।
ਇਹ ਲਗਾਤਾਰ ਫੇਲ ਹੋ ਰਿਹਾ ਸੀ। ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਮੇਰੇ ਖਾਸ keywords ਦੀ ਵਰਤੋਂ ਕੀਤੇ ਬਿਨਾਂ Rust patterns ਬਾਰੇ ਪੁੱਛਦਾ ਸੀ, ਤਾਂ router ਉਸਨੂੰ ਗਲਤ model ਕੋਲ ਭੇਜ ਦਿੰਦਾ ਸੀ। ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਹਿੰਦੀ ਬੋਲਦਾ ਸੀ, ਤਾਂ ਇਹ ਟੁੱਟ ਜਾਂਦਾ ਸੀ।
ਨਤੀਜੇ ਬੁਰੇ ਸਨ:
- 18% requests ਗਲਤ model ਕੋਲ ਚਲੀਆਂ ਜਾਂਦੀਆਂ ਸਨ।
- ਮੈਂ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਮਹਿੰਗੀਆਂ APIs 'ਤੇ ਪੈਸੇ ਬਰਬਾਦ ਕੀਤੇ।
- ਮੈਨੂੰ ਹਰ ਹਫ਼ਤੇ ਮੈਨੂਅਲੀ keywords ਅਪਡੇਟ ਕਰਨੇ ਪੈਂਦੇ ਸਨ।
ਮੈਨੂੰ ਇੱਕ ਅਜਿਹੇ ਸਿਸਟਮ ਦੀ ਲੋੜ ਸੀ ਜੋ ਸਿਰਫ਼ keywords ਨੂੰ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਮਤਲਬ (meaning) ਨੂੰ ਵੀ ਸਮਝ ਸਕੇ।
ਮੈਂ AgentGateway ਦੇ ਨਾਲ vLLM Semantic Router 'ਤੇ ਤਬਦੀਲ ਹੋ ਗਿਆ। ਇਸਨੇ ਸਭ ਕੁਝ ਬਦਲ ਦਿੱਤਾ।
Python script ਦੀ ਬਜਾਏ, Semantic Router ਇੱਕ Envoy sidecar ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਹਰ prompt ਦੇ ਇਰਾਦੇ (intent) ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਛੋਟੇ 130MB embedding model ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ keywords ਲਿਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਬੱਸ ਇੱਕ YAML file ਵਿੱਚ ਹਰੇਕ model ਦੇ ਕੰਮ ਦਾ ਵੇਰਵਾ ਲਿਖਦੇ ਹੋ।
ਦੋ ਹਫ਼ਤਿਆਂ ਬਾਅਦ ਦੇ ਨਤੀਜੇ:
- ਗਲਤ routed requests 18% ਤੋਂ ਘਟ ਕੇ 3% ਰਹਿ ਗਈਆਂ।
- Routing latency 45ms ਤੋਂ ਘਟ ਕੇ 1ms ਹੋ ਗਈ।
- ਮਹੀਨਾਵਾਰ API ਲਾਗਤ $24 ਤੋਂ ਘਟ ਕੇ $14 ਹੋ ਗਈ।
- ਹੁਣ maintenance ਜ਼ੀਰੋ ਹੈ।
Router ਤੁਹਾਡੇ prompt ਦੀ ਤੁਲਨਾ ਤੁਹਾਡੇ model descriptions ਨਾਲ ਕਰਨ ਲਈ embeddings ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ model ਨੂੰ coding specialist ਵਜੋਂ ਦਰਸਾਉਂਦੇ ਹੋ, ਤਾਂ router coding prompts ਨੂੰ ਆਪਣੇ ਆਪ ਉੱਥੇ ਭੇਜ ਦਿੰਦਾ ਹੈ। ਇਹ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਵੀ ਕੰਮ ਕਰਦਾ ਹੈ।
ਜੇਕਰ router ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਆਨਲਾਈਨ ਰਹਿੰਦਾ ਹੈ। ਮੈਂ ਇੱਕ fail-open policy ਕੌਂਫਿਗ ਕੀਤੀ ਹੈ। ਜੇਕਰ router ਕ੍ਰੈਸ਼ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ requests ਆਪਣੇ ਆਪ Gemini 'ਤੇ ਚਲੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। Agent ਕਦੇ ਵੀ ਕੰਮ ਕਰਨਾ ਬੰਦ ਨਹੀਂ ਕਰਦਾ।
ਮੈਂ Apple Silicon 'ਤੇ ARM64 support ਨਾਲ ਸਬੰਧਤ source code ਵਿੱਚ ਦੋ bugs ਲੱਭੇ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਠੀਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਵੀ ਕੀਤੀ। Open source ਨੂੰ ਇਸੇ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਸਮੱਸਿਆ ਲੱਭਦੇ ਹੋ, ਉਸਦਾ ਹੱਲ (fix) ਦਿੰਦੇ ਹੋ, ਅਤੇ ਪੂਰੀ ਕਮਿਊਨਿਟੀ ਬਿਹਤਰ ਬਣਦੀ ਹੈ।
ਜੇਕਰ ਤੁਸੀਂ AI agents ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ keyword matching ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਆਪਣੀ ਲਾਗਤ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਅਤੇ ਆਪਣੇ ਜਵਾਬਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ semantic routing ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi