𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻
ನನ್ನ AI ಏಜೆಂಟ್ ರೂಟಿಂಗ್ (routing) ತುಂಬಾ ಗೊಂದಲಮಯವಾಗಿತ್ತು.
ನಾನು Pi ಎಂಬ ವೈಯಕ್ತಿಕ AI ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸಿದೆ. ಇದು ನನ್ನ ಲಿವಿಂಗ್ ರೂಮ್ನಿಂದ 24/7 ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಹಣ ಉಳಿಸಲು, ನಾನು ಮೂರು ವಿಭಿನ್ನ ಮಾಡೆಲ್ಗಳನ್ನು ಬಳಸಿದೆ:
- ಕೋಡಿಂಗ್ಗಾಗಿ Ollama (Local).
- ಆಳವಾದ ತರ್ಕಕ್ಕಾಗಿ (deep reasoning) OpenAI.
- ವೇಗದ ಕೆಲಸಗಳಿಗಾಗಿ Gemini.
ಸರಿಯಾದ ಮಾಡೆಲ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಲು, ನಾನು ಕೀವರ್ಡ್ ಪಟ್ಟಿಗಳೊಂದಿಗೆ (keyword lists) ಒಂದು Python ಸ್ಕ್ರಿಪ್ಟ್ ಅನ್ನು ಬಳಸುತ್ತಿದ್ದೆ. ಅದು ಒಂದು ಸರಳ if-else ಚೈನ್ ಆಗಿತ್ತು.
ಅದು ಪದೇ ಪದೇ ವಿಫಲವಾಗುತ್ತಿತ್ತು. ಬಳಕೆದಾರರು ನನ್ನ ನಿರ್ದಿಷ್ಟ ಕೀವರ್ಡ್ಗಳನ್ನು ಬಳಸದೆ Rust patterns ಬಗ್ಗೆ ಕೇಳಿದರೆ, ರೂಟರ್ ಅದನ್ನು ತಪ್ಪು ಮಾಡೆಲ್ಗೆ ಕಳುಹಿಸುತ್ತಿತ್ತು. ಬಳಕೆದಾರರು ಹಿಂದಿಯಲ್ಲಿ ಮಾತನಾಡಿದರೆ, ಅದು ಕೆಲಸ ಮಾಡದೆ ಹೋಗುತ್ತಿತ್ತು.
ಫಲಿತಾಂಶಗಳು ಕೆಟ್ಟದಾಗಿದ್ದವು:
- 18% ವಿನಂತಿಗಳು ತಪ್ಪು ಮಾಡೆಲ್ಗೆ ಹೋಗುತ್ತಿದ್ದವು.
- ಸರಳ ಕೆಲಸಗಳಿಗಾಗಿ ದುಬಾರಿ API ಗಳ ಮೇಲೆ ನಾನು ಹಣ ವ್ಯರ್ಥ ಮಾಡುತ್ತಿದ್ದೆ.
- ನಾನು ಪ್ರತಿ ವಾರ ಕೀವರ್ಡ್ಗಳನ್ನು ಮ್ಯಾನುಯಲ್ ಆಗಿ ಅಪ್ಡೇಟ್ ಮಾಡಬೇಕಾಗುತ್ತಿತ್ತು.
ನನಗೆ ಕೇವಲ ಕೀವರ್ಡ್ಗಳನ್ನು ಮಾತ್ರವಲ್ಲದೆ, ಅರ್ಥವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಒಂದು ವ್ಯವಸ್ಥೆಯ ಅಗತ್ಯವಿತ್ತು.
ನಾನು AgentGateway ಜೊತೆಗೆ vLLM Semantic Router ಗೆ ಬದಲಾಯಿಸಿದೆ. ಇದು ಎಲ್ಲವನ್ನೂ ಬದಲಿಸಿತು.
Python ಸ್ಕ್ರಿಪ್ಟ್ಗೆ ಬದಲಾಗಿ, Semantic Router ಒಂದು Envoy sidecar ಆಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಇದು ಪ್ರತಿಯೊಂದು ಪ್ರಾಂಪ್ಟ್ನ ಉದ್ದೇಶವನ್ನು (intent) ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು 130MB ಸಣ್ಣ ಎಂಬೆಡ್ಡಿಂಗ್ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ನೀವು ಕೀವರ್ಡ್ಗಳನ್ನು ಬರೆಯುವ ಅಗತ್ಯವಿಲ್ಲ. ನೀವು ಕೇವಲ YAML ಫೈಲ್ನಲ್ಲಿ ಪ್ರತಿ ಮಾಡೆಲ್ ಏನು ಮಾಡುತ್ತದೆ ಎಂಬ ವಿವರಣೆಯನ್ನು ಬರೆದರೆ ಸಾಕು.
ಎರಡು ವಾರಗಳ ನಂತರದ ಫಲಿತಾಂಶಗಳು:
- ತಪ್ಪು ರೂಟಿಂಗ್ ಆದ ವಿನಂತಿಗಳು 18% ರಿಂದ 3% ಕ್ಕೆ ಇಳಿದವು.
- ರೂಟಿಂಗ್ ವಿಳಂಬ (latency) 45ms ನಿಂದ 1ms ಕ್ಕೆ ಇಳಿಯಿತು.
- ಮಾಸಿಕ API ವೆಚ್ಚಗಳು $24 ರಿಂದ $14 ಕ್ಕೆ ಇಳಿದವು.
- ನಿರ್ವಹಣೆ (maintenance) ಈಗ ಶೂನ್ಯವಾಗಿದೆ.
ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ನಿಮ್ಮ ಮಾಡೆಲ್ ವಿವರಣೆಗಳೊಂದಿಗೆ ಹೋಲಿಸಲು ರೂಟರ್ ಎಂಬೆಡ್ಡಿಂಗ್ಗಳನ್ನು ಬಳಸುತ್ತದೆ. ನೀವು ಒಂದು ಮಾಡೆಲ್ ಅನ್ನು ಕೋಡಿಂಗ್ ಸ್ಪೆಷಲಿಸ್ಟ್ ಎಂದು ವಿವರಿಸಿದರೆ, ರೂಟರ್ ಕೋಡಿಂಗ್ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಅಲ್ಲಿಗೆ ಕಳುಹಿಸುತ್ತದೆ. ಇದು ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲೂ ಕೆಲಸ ಮಾಡುತ್ತದೆ.
ಒಂದು ವೇಳೆ ರೂಟರ್ ವಿಫಲವಾದರೆ, ವ್ಯವಸ್ಥೆಯು ಆನ್ಲೈನ್ನಲ್ಲೇ ಇರುತ್ತದೆ. ನಾನು 'fail-open' ನೀತಿಯನ್ನು ಕಾನ್ಫಿಗರ್ ಮಾಡಿದ್ದೇನೆ. ರೂಟರ್ ಕ್ರ್ಯಾಶ್ ಆದರೆ, ವಿನಂತಿಗಳು ಸ್ವಯಂಚಾಲಿತವಾಗಿ Gemini ಗೆ ವರ್ಗಾವಣೆಯಾಗುತ್ತವೆ. ಏಜೆಂಟ್ ಎಂದಿಗೂ ಕೆಲಸ ಮಾಡುವುದನ್ನು ನಿಲ್ಲಿಸುವುದಿಲ್ಲ.
ನಾನು Apple Silicon ನಲ್ಲಿ ARM64 ಬೆಂಬಲಕ್ಕೆ ಸಂಬಂಧಿಸಿದಂತೆ ಸೋರ್ಸ್ ಕೋಡ್ನಲ್ಲಿ ಎರಡು ಬಗ್ಗಳನ್ನು (bugs) ಪತ್ತೆಹಚ್ಚಿ ಅವುಗಳನ್ನು ಸರಿಪಡಿಸಲು ಸಹಾಯ ಮಾಡಿದೆ. ಓಪನ್ ಸೋರ್ಸ್ ಹೀಗೆಯೇ ಕೆಲಸ ಮಾಡಬೇಕು. ನೀವು ಒಂದು ಸಮಸ್ಯೆಯನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತೀರಿ, ಪರಿಹಾರವನ್ನು ನೀಡುತ್ತೀರಿ ಮತ್ತು ಇಡೀ ಸಮುದಾಯವು ಉತ್ತಮಗೊಳ್ಳುತ್ತದೆ.
ನೀವು AI ಏಜೆಂಟ್ಗಳನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಕೀವರ್ಡ್ ಮ್ಯಾಚಿಂಗ್ ಬಳಸುವುದು ನಿಲ್ಲಿಸಿ. ನಿಮ್ಮ ವೆಚ್ಚಗಳನ್ನು ನಿಯಂತ್ರಿಸಲು ಮತ್ತು ನಿಮ್ಮ ಉತ್ತರಗಳನ್ನು ಸುಧಾರಿಸಲು ಸೆಮ್ಯಾಂಟಿಕ್ ರೂಟಿಂಗ್ ಬಳಸಿ.
ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi