தரத்தை இழக்காமல் AI API செலவுகளைக் குறைக்கவும்
கடந்த மார்ச் மாதம், எங்கள் குழுவின் LLM கட்டணம் ஒரு மாதத்தில் $11,400 ஆக உயர்ந்தது.
அது எங்கள் பட்ஜெட்டை விட மூன்று மடங்கு அதிகம்.
நாங்கள் ஒரு பொதுவான தவறைச் செய்ததை நான் உணர்ந்தேன். ஒவ்வொரு கோரிக்கையையும் (request) நாங்கள் GPT-4o-விற்கு அனுப்பினோம். அது எளிதான வழியாக இருந்தது, ஆனால் அதே சமயம் மிகவும் செலவுமிக்கதாகவும் இருந்தது.
குறிப்பிட்ட பணிகளுக்குச் சரியான மாடல்களைத் தேர்ந்தெடுப்பதன் மூலம், அந்தப் பட்டியலை $1,830 ஆகக் குறைத்தோம்.
நீங்களும் இதையே எப்படிச் செய்யலாம் என்பது இதோ.
• பணிக்கான சரியான மாடலைத் தேர்ந்தெடுக்கவும் பெரும்பாலான பணிகளுக்கு மிகப்பெரிய மாடல் தேவையில்லை. நான் 2,000 ப்ராம்ப்ட்களை (prompts) சோதித்தபோது, 85-95% கோரிக்கைகளில் உயர்தர மற்றும் மலிவான மாடல்களுக்கு இடையே தரத்தில் எந்த வித்தியாசமும் இல்லை என்பதைக் கண்டறிந்தேன்.
பணத்தைச் சேமிக்க இந்த மாற்றங்களைப் பயன்படுத்தவும்:
- எளிய அரட்டை (Simple chat): GPT-4o-விலிருந்து DeepSeek V4 Flash-க்கு மாறவும் (97% சேமிப்பு)
- வகைப்படுத்துதல் (Classification): GPT-4o-mini-யிலிருந்து Qwen3-8B-க்கு மாறவும் (98% சேமிப்பு)
- குறியீடு உருவாக்கம் (Code generation): GPT-4o-விலிருந்து DeepSeek Coder-க்கு மாறவும் (97% சேமிப்பு)
- சுருக்கம் செய்தல் (Summarization): GPT-4o-விலிருந்து Qwen3-32B-க்கு மாறவும் (97% சேமிப்பு)
• அடுக்குமுறை வழிசெலுத்தலைப் (tiered routing) பயன்படுத்தவும் அனைத்தையும் ஒரு பிரீமியம் மாடலுக்கு அனுப்ப வேண்டாம். முதலில் மலிவான மாடலில் தொடங்குங்கள். ஒரு விரைவான தரச் சோதனையைச் செய்யுங்கள். மலிவான மாடல் தோல்வியடைந்தால் மட்டுமே விலையுயர்ந்த மாடலுக்கு மாறவும். இது எளிமையான கேள்விகளுக்குச் செலவைக் குறைப்பதோடு, கடினமான கேள்விகளுக்கு உயர்தரமான பதில்களைப் பெறவும் உதவுகிறது.
• கேச்சிங் (caching) முறையைச் செயல்படுத்தவும் பல கோரிக்கைகள் கிட்டத்தட்ட நகல்களாகவே (duplicates) இருக்கும். FAQ கேள்விகள் மற்றும் ஆவணத் தேடல்கள் பெரும்பாலும் மீண்டும் மீண்டும் நிகழும். பொதுவான ப்ராம்ப்ட்களுக்கான பதில்களைச் சேமிக்க ஒரு கேச் லேயரைப் (cache layer) பயன்படுத்தவும். இது சப்போர்ட் பாட்களின் (support bots) செலவை 50-80% வரை குறைக்கலாம்.
• உங்கள் ப்ராம்ப்ட்களைச் சுருக்கவும் ஒவ்வொரு இன்புட் டோக்கனுக்கும் (input token) பணம் செலவாகும். நீண்ட சூழல் (long context) கொண்ட பணிகளுக்கு, ஒரு வலிமையான மாடலுக்கு அனுப்புவதற்கு முன், உள்ளீட்டைச் சுருக்க ஒரு மலிவான மாடலைப் பயன்படுத்தவும். 2,000 டோக்கன் கொண்ட ப்ராம்ப்டை 400 டோக்கன்களாகக் குறைப்பது பெரிய அளவில் பணத்தைச் சேமிக்கும்.
• உங்கள் கோரிக்கைகளைத் தொகுக்கவும் (Batch) நீங்கள் தரவை ஆஃப்லைனில் (offline) செயலாக்குகிறீர்கள் என்றால், ஒவ்வொரு முறையும் ஒரு கோரிக்கையை மட்டும் அனுப்ப வேண்டாம். பல கேள்விகளை ஒரே API அழைப்பாக (API call) இணைக்கவும். இது சிஸ்டம் ப்ராம்ப்டிற்கு (system prompt) பலமுறை பணம் செலுத்துவதற்குப் பதிலாக, ஒருமுறை மட்டுமே பணம் செலுத்த அனுமதிக்கிறது.
இந்த மாற்றங்களின் முடிவுகள்:
- மாதச் செலவு: $11,400 இலிருந்து $1,830 ஆகக் குறைந்தது
- கோரிக்கைக்கான செலவு: $0.038 இலிருந்து $0.006 ஆகக் குறைந்தது
- தர இழப்பு: 2%-க்கும் குறைவு
எளிமையான பணிகளுக்கு விலையுயர்ந்த மாடல்களைப் பயன்படுத்துவதை நிறுத்துங்கள். உங்கள் பட்ஜெட் உங்களுக்கு நன்றி சொல்லும்.
Source: https://dev.to/swift-logic-io218/the-developers-guide-to-trimming-ai-api-costs-without-crying-12c2
Optional learning community: https://t.me/GyaanSetuAi
