ஒரே வார இறுதியில் எனது AI ஏஜென்ட்டின் டோக்கன் கட்டணத்தை 62% குறைத்தேன்
எனது AI ஏஜென்ட் ஒரு பணிக்கு $5.40 செலவு செய்தது. ஒரே வார இறுதியில் அந்தச் செலவை ஒரு பணிக்கு $2.05 ஆகக் குறைத்தேன். தரத்தைக் குறைக்காமல் இந்த 62% குறைப்பைப் பெற்றேன்.
நான் இதைச் செய்த விதம் இதோ.
பிரச்சனை: எனது ஏஜென்ட் ஒரு ஆராய்ச்சி சுழற்சியை (research loop) இயக்குகிறது. இது இணையத்தில் தேடுகிறது, பக்கங்களை ஸ்கிராப் (scrape) செய்கிறது மற்றும் சுருக்கங்களை எழுதுகிறது. இது மூன்று வழிகளில் டோக்கன்களை வீணடித்தது:
- Context stuffing: நான் 50,000 எழுத்துக்கள் கொண்ட முழுப் பக்கங்களையும் மாடலுக்கு அனுப்பினேன். எனக்குத் தேவைப்பட்டது வெறும் 2,000 எழுத்துக்கள் மட்டுமே. ஒரு ஊசியைக் கண்டறிய முழு வைக்கோல் குவியலுக்கும் நான் பணம் செலுத்தினேன்.
- Verbose prompts: எனது சிஸ்டம் ப்ராம்ப்ட்கள் (system prompts) ஒரே அறிவுறுத்தல்களை மூன்று முறை மீண்டும் மீண்டும் கூறின. ஒவ்வொரு முறையும் எனது சொந்த வார்த்தைகளையே மாடல் மீண்டும் படிக்க நான் பணம் செலுத்தினேன்.
- விலையுயர்ந்த மாடல்களை அதிகமாகப் பயன்படுத்துதல்: ஒரு பத்தியைச் சுருக்குவது போன்ற எளிய பணிகளுக்கு நான் உயர்தர reasoning மாடல்களைப் பயன்படுத்தினேன்.
தீர்வுகள்:
1. அனுப்புவதற்கு முன் வடிகட்டுங்கள் முழுப் பக்கங்களையும் அனுப்புவதற்குப் பதிலாக, இப்போது நான் உரையைத் துண்டுகளாகப் (chunk) பிரிக்கிறேன். முதலில் தொடர்புடைய பகுதிகளைக் கண்டறிகிறேன். பின்னர் அந்தப் பகுதிகளை மட்டுமே மாடலுக்கு அனுப்புகிறேன். இது ஒரு பக்கத்திற்கான இன்புட் டோக்கன்களை (input tokens) 12,500-லிருந்து 3,200 ஆகக் குறைத்தது.
2. சிஸ்டம் ப்ராம்ப்ட்டைத் துண்டாக்குங்கள் (Trim) தேவையற்ற அறிவுறுத்தல்களை நீக்கினேன். மாடலுக்கு ஏற்கனவே தெரிந்த கருவி விளக்கங்களை (tool descriptions) நீக்கினேன். நவீன மாடல்கள் இதை இயல்பாகவே செய்வதால், "think step-by-step" போன்ற வழக்கமான வாசகங்களைப் பயன்படுத்துவதை நிறுத்தினேன்.
3. அடுக்கு மாடல் ரூட்டிங் (Tiered model routing) அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துவதை நிறுத்தினேன். பணிகளை மூன்று நிலைகளாகப் பிரித்தேன்:
- Extraction: ஒரு மலிவான, சிறிய மாடலைப் பயன்படுத்துங்கள்.
- Synthesis: ஒரு உயர்தர reasoning மாடலைப் பயன்படுத்துங்கள்.
- Formatting: ஒரு மலிவான, சிறிய மாடலைப் பயன்படுத்துங்கள்.
50 பணிகளைக் கொண்ட ஒரு சோதனையின் முடிவுகள்:
- ஒரு பணிக்கான செலவு: $5.40 முதல் $2.05 வரை
- தாமதம் (Latency): 41 வினாடிகள் முதல் 28 வினாடிகள் வரை
- மேற்கோள் அளவு (Citation coverage): 67% முதல் 89% வரை
ஏஜென்ட் புத்திசாலியாகிவிடவில்லை. அந்தப் பணிப்பாய்வு (pipeline) இப்போது அதிகத் திறன் வாய்ந்தது.
உங்கள் தயாரிப்பு ஏஜென்ட்களுக்கான (production agents) மூன்று பாடங்கள்:
- ஒரு குறிப்பிட்ட டோக்கன் வரம்பை (token budget) நிர்ணயியுங்கள். அது உங்கள் வரம்பைத் தாண்டினால் அந்தப் பணியை நிறுத்திவிடுங்கள்.
- உங்கள் முடிவுகளைச் சேமித்து வையுங்கள் (Cache). ஒரே URL-ஐத் திரும்பத் திரும்ப ஸ்கிராப் செய்யாதீர்கள்.
- அனைத்தையும் பதிவு செய்யுங்கள் (Log). எந்தப் படிநிலை அதிகப் பணத்தை செலவிடுகிறது என்பதை நீங்கள் துல்லியமாகத் தெரிந்து கொள்ள வேண்டும்.
தரம் குறையும் போது பெரிய மாடல்களைத் தேடிப் போகாதீர்கள். குறுகிய சூழலுடன் (tighter context) சிறிய மாடல்களைப் பயன்படுத்தத் தொடங்குங்கள்.
ஆதாரம்: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi