ஒரு வார இறுதியில் எனது AI ஏஜென்ட்டின் டோக்கன் கட்டணத்தை 62% குறைத்தேன்

Translated for your language. Read the original.

AI-assisted draft.

நேற்று2min read

ஒரே வார இறுதியில் எனது AI ஏஜென்ட்டின் டோக்கன் கட்டணத்தை 62% குறைத்தேன்

எனது AI ஏஜென்ட் ஒரு பணிக்கு $5.40 செலவு செய்தது. ஒரே வார இறுதியில் அந்தச் செலவை ஒரு பணிக்கு $2.05 ஆகக் குறைத்தேன். தரத்தைக் குறைக்காமல் இந்த 62% குறைப்பைப் பெற்றேன்.

நான் இதைச் செய்த விதம் இதோ.

பிரச்சனை: எனது ஏஜென்ட் ஒரு ஆராய்ச்சி சுழற்சியை (research loop) இயக்குகிறது. இது இணையத்தில் தேடுகிறது, பக்கங்களை ஸ்கிராப் (scrape) செய்கிறது மற்றும் சுருக்கங்களை எழுதுகிறது. இது மூன்று வழிகளில் டோக்கன்களை வீணடித்தது:

Context stuffing: நான் 50,000 எழுத்துக்கள் கொண்ட முழுப் பக்கங்களையும் மாடலுக்கு அனுப்பினேன். எனக்குத் தேவைப்பட்டது வெறும் 2,000 எழுத்துக்கள் மட்டுமே. ஒரு ஊசியைக் கண்டறிய முழு வைக்கோல் குவியலுக்கும் நான் பணம் செலுத்தினேன்.
Verbose prompts: எனது சிஸ்டம் ப்ராம்ப்ட்கள் (system prompts) ஒரே அறிவுறுத்தல்களை மூன்று முறை மீண்டும் மீண்டும் கூறின. ஒவ்வொரு முறையும் எனது சொந்த வார்த்தைகளையே மாடல் மீண்டும் படிக்க நான் பணம் செலுத்தினேன்.
விலையுயர்ந்த மாடல்களை அதிகமாகப் பயன்படுத்துதல்: ஒரு பத்தியைச் சுருக்குவது போன்ற எளிய பணிகளுக்கு நான் உயர்தர reasoning மாடல்களைப் பயன்படுத்தினேன்.

தீர்வுகள்:

1. அனுப்புவதற்கு முன் வடிகட்டுங்கள் முழுப் பக்கங்களையும் அனுப்புவதற்குப் பதிலாக, இப்போது நான் உரையைத் துண்டுகளாகப் (chunk) பிரிக்கிறேன். முதலில் தொடர்புடைய பகுதிகளைக் கண்டறிகிறேன். பின்னர் அந்தப் பகுதிகளை மட்டுமே மாடலுக்கு அனுப்புகிறேன். இது ஒரு பக்கத்திற்கான இன்புட் டோக்கன்களை (input tokens) 12,500-லிருந்து 3,200 ஆகக் குறைத்தது.

2. சிஸ்டம் ப்ராம்ப்ட்டைத் துண்டாக்குங்கள் (Trim) தேவையற்ற அறிவுறுத்தல்களை நீக்கினேன். மாடலுக்கு ஏற்கனவே தெரிந்த கருவி விளக்கங்களை (tool descriptions) நீக்கினேன். நவீன மாடல்கள் இதை இயல்பாகவே செய்வதால், "think step-by-step" போன்ற வழக்கமான வாசகங்களைப் பயன்படுத்துவதை நிறுத்தினேன்.

3. அடுக்கு மாடல் ரூட்டிங் (Tiered model routing) அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துவதை நிறுத்தினேன். பணிகளை மூன்று நிலைகளாகப் பிரித்தேன்:

Extraction: ஒரு மலிவான, சிறிய மாடலைப் பயன்படுத்துங்கள்.
Synthesis: ஒரு உயர்தர reasoning மாடலைப் பயன்படுத்துங்கள்.
Formatting: ஒரு மலிவான, சிறிய மாடலைப் பயன்படுத்துங்கள்.

50 பணிகளைக் கொண்ட ஒரு சோதனையின் முடிவுகள்:

ஒரு பணிக்கான செலவு: $5.40 முதல் $2.05 வரை
தாமதம் (Latency): 41 வினாடிகள் முதல் 28 வினாடிகள் வரை
மேற்கோள் அளவு (Citation coverage): 67% முதல் 89% வரை

ஏஜென்ட் புத்திசாலியாகிவிடவில்லை. அந்தப் பணிப்பாய்வு (pipeline) இப்போது அதிகத் திறன் வாய்ந்தது.

உங்கள் தயாரிப்பு ஏஜென்ட்களுக்கான (production agents) மூன்று பாடங்கள்:

ஒரு குறிப்பிட்ட டோக்கன் வரம்பை (token budget) நிர்ணயியுங்கள். அது உங்கள் வரம்பைத் தாண்டினால் அந்தப் பணியை நிறுத்திவிடுங்கள்.
உங்கள் முடிவுகளைச் சேமித்து வையுங்கள் (Cache). ஒரே URL-ஐத் திரும்பத் திரும்ப ஸ்கிராப் செய்யாதீர்கள்.
அனைத்தையும் பதிவு செய்யுங்கள் (Log). எந்தப் படிநிலை அதிகப் பணத்தை செலவிடுகிறது என்பதை நீங்கள் துல்லியமாகத் தெரிந்து கொள்ள வேண்டும்.

தரம் குறையும் போது பெரிய மாடல்களைத் தேடிப் போகாதீர்கள். குறுகிய சூழலுடன் (tighter context) சிறிய மாடல்களைப் பயன்படுத்தத் தொடங்குங்கள்.

ஆதாரம்: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

ஒரு வார இறுதியில் எனது AI ஏஜென்ட்டின் டோக்கன் கட்டணத்தை 62% குறைத்தேன்

Continue reading

எனது AI API செலவுகளை 70% குறைத்தேன்

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

உங்கள் AI கட்டணத்தைக் குறைக்க 7 வழிகள்