AgentGateway-க்கு ஒரு Semantic மூளையை அளித்தல்

எனது AI ஏஜென்ட் ரூட்டிங் (routing) ஒரு குழப்பமாக இருந்தது.

நான் Pi என்று பெயரிடப்பட்ட ஒரு தனிப்பட்ட AI ஏஜென்ட்டை உருவாக்கினேன். இது எனது வரவேற்பறையிலிருந்து 24/7 இயங்குகிறது. பணத்தைச் சேமிக்க, நான் மூன்று வெவ்வேறு மாடல்களைப் பயன்படுத்தினேன்:

  • கோடிங்கிற்காக Ollama (Local).
  • ஆழமான பகுத்தறிவிற்காக (deep reasoning) OpenAI.
  • வேகமான பணிகளுக்காக Gemini.

சரியான மாடலைத் தேர்ந்தெடுக்க, நான் கீவேர்ட் (keyword) பட்டியல்களுடன் கூடிய ஒரு Python ஸ்கிரிப்டைப் பயன்படுத்தினேன். அது ஒரு எளிய if-else சங்கிலித் தொடராக இருந்தது.

அது தொடர்ந்து தோல்வியடைந்தது. ஒரு பயனர் எனது குறிப்பிட்ட கீவேர்டுகளைப் பயன்படுத்தாமல் Rust patterns பற்றி கேட்டால், ரூட்டர் அதைத் தவறான மாடலுக்கு அனுப்பியது. ஒரு பயனர் இந்தி பேசினால், அது செயலிழந்துவிடும்.

முடிவுகள் மோசமாக இருந்தன:

  • 18% கோரிக்கைகள் தவறான மாடலுக்குச் சென்றன.
  • எளிய பணிகளுக்காக விலையுயர்ந்த API-களுக்கு நான் பணத்தை வீணடித்தேன்.
  • ஒவ்வொரு வாரமும் நான் கீவேர்டுகளைக் கைமுறையாகப் புதுப்பிக்க வேண்டியிருந்தது.

எனக்கு வெறும் கீவேர்டுகளை மட்டும் புரிந்து கொள்ளாமல், பொருளையும் (meaning) புரிந்து கொள்ளும் ஒரு அமைப்பு தேவைப்பட்டது.

நான் AgentGateway உடன் vLLM Semantic Router-க்கு மாறினேன். இது அனைத்தையும் மாற்றியமைத்தது.

ஒரு Python ஸ்கிரிப்பிற்குப் பதிலாக, Semantic Router ஒரு Envoy sidecar ஆகச் செயல்படுகிறது. ஒவ்வொரு ப்ராம்ப்ட்டின் (prompt) நோக்கத்தையும் புரிந்துகொள்ள இது 130MB அளவுள்ள ஒரு சிறிய embedding மாடலைப் பயன்படுத்துகிறது. நீங்கள் கீவேர்டுகளை எழுதத் தேவையில்லை. ஒவ்வொரு மாடலும் என்ன செய்கிறது என்பதை ஒரு YAML கோப்பில் விவரித்தால் போதுமானது.

இரண்டு வாரங்களுக்குப் பிறகு கிடைத்த முடிவுகள்:

  • தவறான ரூட்டிங் கோரிக்கைகள் 18%-லிருந்து 3%-ஆகக் குறைந்தது.
  • ரூட்டிங் லேட்டன்சி (latency) 45ms-லிருந்து 1ms-ஆகக் குறைந்தது.
  • மாதாந்திர API செலவுகள் $24-லிருந்து $14-ஆகக் குறைந்தது.
  • பராமரிப்பு (maintenance) இப்போது பூஜ்ஜியம்.

உங்கள் ப்ராம்ப்ட்டை மாடல் விளக்கங்களுடன் ஒப்பிடுவதற்கு ரூட்டர் embeddings-ஐப் பயன்படுத்துகிறது. நீங்கள் ஒரு மாடலை கோடிங் நிபுணர் (coding specialist) என்று விவரித்தால், ரூட்டர் கோடிங் தொடர்பான ப்ராம்ப்ட்களை தானாகவே அங்கு அனுப்பும். இது பல்வேறு மொழிகளிலும் வேலை செய்கிறது.

ரூட்டர் தோல்வியடைந்தாலும், அமைப்பு ஆன்லைனில் இருக்கும். நான் ஒரு fail-open கொள்கையை (policy) அமைத்துள்ளேன். ரூட்டர் செயலிழந்தால், கோரிக்கைகள் தானாகவே Gemini-க்கு மாறும். ஏஜென்ட் வேலை செய்வதை ஒருபோதும் நிறுத்துவதில்லை.

Apple Silicon-ல் ARM64 ஆதரது தொடர்பான சோர்ஸ் கோடில் (source code) இருந்த இரண்டு பிழைகளைக் (bugs) கண்டறிந்து சரிசெய்யவும் நான் உதவினேன். ஓப்பன் சோர்ஸ் (open source) இப்படித்தான் செயல்பட வேண்டும். நீங்கள் ஒரு சிக்கலைக் கண்டறிந்து, அதைச் சரிசெய்ய பங்களிக்க வேண்டும், அதன் மூலம் ஒட்டுமொத்த சமூகமும் மேம்படும்.

நீங்கள் AI ஏஜென்ட்களை உருவாக்குகிறீர்கள் என்றால், கீவேர்ட் மேட்சிங்கை (keyword matching) பயன்படுத்துவதை நிறுத்துங்கள். உங்கள் செலவுகளைக் கட்டுப்படுத்தவும், உங்கள் பதில்களை மேம்படுத்தவும் semantic routing-ஐப் பயன்படுத்துங்கள்.

Source: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Optional learning community: https://t.me/GyaanSetuAi