தரத்தை இழக்காமல் AI API செலவுகளைக் குறைக்கவும்

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialகடந்த வாரம்2min read

தரத்தை இழக்காமல் AI API செலவுகளைக் குறைக்கவும்

கடந்த மார்ச் மாதம், எங்கள் குழுவின் LLM கட்டணம் ஒரு மாதத்தில் $11,400 ஆக உயர்ந்தது.

அது எங்கள் பட்ஜெட்டை விட மூன்று மடங்கு அதிகம்.

நாங்கள் ஒரு பொதுவான தவறைச் செய்ததை நான் உணர்ந்தேன். ஒவ்வொரு கோரிக்கையையும் (request) நாங்கள் GPT-4o-விற்கு அனுப்பினோம். அது எளிதான வழியாக இருந்தது, ஆனால் அதே சமயம் மிகவும் செலவுமிக்கதாகவும் இருந்தது.

குறிப்பிட்ட பணிகளுக்குச் சரியான மாடல்களைத் தேர்ந்தெடுப்பதன் மூலம், அந்தப் பட்டியலை $1,830 ஆகக் குறைத்தோம்.

நீங்களும் இதையே எப்படிச் செய்யலாம் என்பது இதோ.

• பணிக்கான சரியான மாடலைத் தேர்ந்தெடுக்கவும் பெரும்பாலான பணிகளுக்கு மிகப்பெரிய மாடல் தேவையில்லை. நான் 2,000 ப்ராம்ப்ட்களை (prompts) சோதித்தபோது, 85-95% கோரிக்கைகளில் உயர்தர மற்றும் மலிவான மாடல்களுக்கு இடையே தரத்தில் எந்த வித்தியாசமும் இல்லை என்பதைக் கண்டறிந்தேன்.

பணத்தைச் சேமிக்க இந்த மாற்றங்களைப் பயன்படுத்தவும்:

எளிய அரட்டை (Simple chat): GPT-4o-விலிருந்து DeepSeek V4 Flash-க்கு மாறவும் (97% சேமிப்பு)
வகைப்படுத்துதல் (Classification): GPT-4o-mini-யிலிருந்து Qwen3-8B-க்கு மாறவும் (98% சேமிப்பு)
குறியீடு உருவாக்கம் (Code generation): GPT-4o-விலிருந்து DeepSeek Coder-க்கு மாறவும் (97% சேமிப்பு)
சுருக்கம் செய்தல் (Summarization): GPT-4o-விலிருந்து Qwen3-32B-க்கு மாறவும் (97% சேமிப்பு)

• அடுக்குமுறை வழிசெலுத்தலைப் (tiered routing) பயன்படுத்தவும் அனைத்தையும் ஒரு பிரீமியம் மாடலுக்கு அனுப்ப வேண்டாம். முதலில் மலிவான மாடலில் தொடங்குங்கள். ஒரு விரைவான தரச் சோதனையைச் செய்யுங்கள். மலிவான மாடல் தோல்வியடைந்தால் மட்டுமே விலையுயர்ந்த மாடலுக்கு மாறவும். இது எளிமையான கேள்விகளுக்குச் செலவைக் குறைப்பதோடு, கடினமான கேள்விகளுக்கு உயர்தரமான பதில்களைப் பெறவும் உதவுகிறது.

• கேச்சிங் (caching) முறையைச் செயல்படுத்தவும் பல கோரிக்கைகள் கிட்டத்தட்ட நகல்களாகவே (duplicates) இருக்கும். FAQ கேள்விகள் மற்றும் ஆவணத் தேடல்கள் பெரும்பாலும் மீண்டும் மீண்டும் நிகழும். பொதுவான ப்ராம்ப்ட்களுக்கான பதில்களைச் சேமிக்க ஒரு கேச் லேயரைப் (cache layer) பயன்படுத்தவும். இது சப்போர்ட் பாட்களின் (support bots) செலவை 50-80% வரை குறைக்கலாம்.

• உங்கள் ப்ராம்ப்ட்களைச் சுருக்கவும் ஒவ்வொரு இன்புட் டோக்கனுக்கும் (input token) பணம் செலவாகும். நீண்ட சூழல் (long context) கொண்ட பணிகளுக்கு, ஒரு வலிமையான மாடலுக்கு அனுப்புவதற்கு முன், உள்ளீட்டைச் சுருக்க ஒரு மலிவான மாடலைப் பயன்படுத்தவும். 2,000 டோக்கன் கொண்ட ப்ராம்ப்டை 400 டோக்கன்களாகக் குறைப்பது பெரிய அளவில் பணத்தைச் சேமிக்கும்.

• உங்கள் கோரிக்கைகளைத் தொகுக்கவும் (Batch) நீங்கள் தரவை ஆஃப்லைனில் (offline) செயலாக்குகிறீர்கள் என்றால், ஒவ்வொரு முறையும் ஒரு கோரிக்கையை மட்டும் அனுப்ப வேண்டாம். பல கேள்விகளை ஒரே API அழைப்பாக (API call) இணைக்கவும். இது சிஸ்டம் ப்ராம்ப்டிற்கு (system prompt) பலமுறை பணம் செலுத்துவதற்குப் பதிலாக, ஒருமுறை மட்டுமே பணம் செலுத்த அனுமதிக்கிறது.

இந்த மாற்றங்களின் முடிவுகள்:

மாதச் செலவு: $11,400 இலிருந்து $1,830 ஆகக் குறைந்தது
கோரிக்கைக்கான செலவு: $0.038 இலிருந்து $0.006 ஆகக் குறைந்தது
தர இழப்பு: 2%-க்கும் குறைவு

எளிமையான பணிகளுக்கு விலையுயர்ந்த மாடல்களைப் பயன்படுத்துவதை நிறுத்துங்கள். உங்கள் பட்ஜெட் உங்களுக்கு நன்றி சொல்லும்.

Source: https://dev.to/swift-logic-io218/the-developers-guide-to-trimming-ai-api-costs-without-crying-12c2

Optional learning community: https://t.me/GyaanSetuAi

தரத்தை இழக்காமல் AI API செலவுகளைக் குறைக்கவும்

Continue reading

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

உங்கள் பட்ஜெட்டைத் தாண்டாமல் LLMகளை எவ்வாறு பயன்படுத்துவது?

OpenAI செலவுகளை ஆரம்பத்திலிருந்து குறைத்தல்