உங்கள் AI கட்டணத்தைக் குறைக்க 7 வழிகள்

கடந்த மாதம், எனது AI API கட்டணம் 120 USD-லிருந்து 480 USD ஆக உயர்ந்தது. நான் அவற்றை மேம்படுத்தாமல் (optimize செய்யாமல்) புதிய அம்சங்களைச் சேர்த்தேன். இதைத்தான் நான் 'Tokenpocalypse' என்று அழைக்கிறேன். தயாரிப்பு நிலையில் (production), டோக்கன் செலவுகளை நிர்வகிப்பது அவசியமாகும்.

உங்கள் AI செலவுகளைக் குறைக்க இதோ 7 நடைமுறை வழிகள்:

  1. உங்கள் ப்ராம்ப்ட்களை (prompts) மேம்படுத்தவும் ஒவ்வொரு எழுத்துக்கும் பணம் செலவாகும். தேவையற்ற மரியாதையான சொற்களையோ அல்லது நீண்ட அறிமுகங்களையோ பயன்படுத்துவதை நிறுத்துங்கள்.
  • நேரடியாகப் பேசுங்கள்.
  • JSON போன்ற கட்டமைக்கப்பட்ட உள்ளீடுகளைப் (structured inputs) பயன்படுத்தவும்.
  • few-shot learning-க்காகக் குறைந்தபட்ச உதாரணங்களைப் பயன்படுத்தவும்.
  • உங்கள் துல்லியமான வெளியீட்டு வடிவத்தைக் (output format) குறிப்பிடவும். எனது ப்ராம்ப்ட்களைச் சுருக்குவதன் மூலம் டோக்கன்களில் 30% சேமித்தேன்.
  1. சரியான மாடலைத் தேர்ந்தெடுக்கவும் மளிகைக் கடைக்குச் செல்ல Ferrari காரைப் பயன்படுத்த வேண்டாம். சிக்கலான பணிகளுக்கு GPT-4 போன்ற பெரிய மாடல்களைப் பயன்படுத்தவும். எளிமையான வகைப்பாடு (classification) அல்லது பிரித்தெடுத்தலுக்கு (extraction) Gemini Flash அல்லது Llama 3 போன்ற சிறிய மாடல்களைப் பயன்படுத்தவும். சிறிய மாடல்கள் பெரும்பாலும் 1/10 பங்கு செலவிலேயே மிக வேகமாகச் செயல்படும்.

  2. கேச்சிங் (Caching) முறையைப் பயன்படுத்தவும் ஒரே கேள்வியைத் திரும்பத் திரும்பக் கேட்காதீர்கள். ஒரே மாதிரியான அல்லது நெருக்கமான ப்ராம்ப்ட்கள் வந்தால், Redis போன்ற ஒரு கேச் (cache) மூலம் பதிலைப் பெறவும். இந்த முறையைப் பயன்படுத்தி எனது தினசரி AI அழைப்புகளை (calls) 15,000-லிருந்து 8,000 ஆகக் குறைத்தேன்.

  3. RAG கட்டமைப்பைப் பயன்படுத்தவும் முழு ஆவணங்களையும் AI-க்கு அனுப்ப வேண்டாம். Retrieval-Augmented Generation (RAG) முறையைப் பயன்படுத்தவும். இந்த முறை உங்கள் தரவின் குறிப்பிட்ட மற்றும் தொடர்புடைய பகுதிகளை மட்டுமே மாடலுக்கு அனுப்பும். எனது தரவுத் தளத்தில் (data platform) RAG-ஐப் பயன்படுத்துவதன் மூலம் டோக்கன் பயன்பாட்டை 60% குறைத்தேன்.

  4. மல்டி-ஏஜென்ட் (multi-agent) ஓட்டங்களை மேம்படுத்தவும் மல்டி-ஏஜென்ட் அமைப்புகளில், ஏஜென்ட்கள் ஒருவருக்கொருவர் தொடர்ந்து பேசிக்கொண்டே இருப்பார்கள். இது செலவை அதிகரிக்கும்.

  • 'Early exit strategy'-ஐப் பயன்படுத்தவும்.
  • ஒரு ஏஜென்ட் எளிய தர்க்கத்தைக் (logic) கொண்டு ஒரு பணியைச் செய்ய முடியும் என்றால், LLM-ஐ அழைக்க வேண்டாம்.
  • எளிய முடிவுகளுக்கு விதி அடிப்படையிலான (rule-based) அமைப்புகளைப் பயன்படுத்தவும். ஒரு வாடிக்கையாளர் திட்டத்தில், எளிய ஸ்டாக் சரிபார்ப்புகளுக்கு AI-க்கு பதிலாக நேரடி தரவுத்தள வினவல்களைப் (database queries) பயன்படுத்தியதன் மூலம் LLM அழைப்புகளை 70% குறைத்தேன்.
  1. திறமையான தரவு வடிவங்களைப் பயன்படுத்தவும் வடிவம் முக்கியமானது. JSON-ஐ விட XML அதிக டோக்கன்களைப் பயன்படுத்துகிறது.
  • XML-ஐ விட JSON-ஐ முன்னுரிமை அளிக்கவும்.
  • குறைந்தபட்ச நெஸ்டிங் (nesting) முறையைப் பயன்படுத்தவும்.
  • கூடுதல் இடைவெளிகள் மற்றும் கருத்துகளை (comments) நீக்கவும்.
  • "product_id"-க்கு பதிலாக "id" போன்ற குறுகிய விசைகளைப் (keys) பயன்படுத்தவும். XML-லிருந்து JSON-க்கு மாறியதன் மூலம் வெளியீட்டு டோக்கன்களில் 25% சேமித்தேன்.
  1. மல்டி-புரோவைடர் (multi-provider) உத்தியைப் பயன்படுத்தவும் ஒரே ஒரு சேவை வழங்குநரை (provider) மட்டும் நம்பியிருக்க வேண்டாம். ஒரு பணியைச் செய்ய சிறந்த மாடலுக்கு அதை அனுப்ப ஒரு ரூட்டரைப் (router) பயன்படுத்தவும். எளிய பணிகளை Groq அல்லது Cerebras போன்ற மலிவான வழங்குநர்களுக்கு அனுப்பவும். சிக்கலான பணிகளை உயர்தர (high-end) மாடல்களுக்கு அனுப்பவும். இது செலவைக் குறைப்பதோடு அமைப்புகளைத் தடையின்றிச் செயல்பட வைக்கும்.

Source: https://dev.to/merbayerp/7-ways-to-reduce-your-ai-bill-smart-strategies-21hc

Optional learning community: https://t.me/GyaanSetuAi