உங்கள் பட்ஜெட்டைத் தாண்டாமல் LLMகளை எவ்வாறு பயன்படுத்துவது?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialகடந்த வாரம்2min read

In this article

உங்கள் பட்ஜெட்டைத் தாண்டாமல் LLM-களை எவ்வாறு பயன்படுத்துவது

ஒரு AI டெமோவை உருவாக்குவது எளிது. ஒரு API சாவியைப் (key) பெற்று, ஒரு ப்ராம்ப்ட் (prompt) எழுதினால் அது வேலை செய்யும்.

ஆனால் அதை உண்மையான பயனர்களுக்குக் கொண்டு செல்வது வேறுபட்டது. டிராஃபிக் (traffic) வரும்போது உங்கள் செலவுகள் உயர்கின்றன. லேட்டன்சி (latency) அதிகரிக்கிறது. உங்கள் நிதித் துறை கேள்விகள் கேட்கிறது.

ஒரு டெமோவிற்கும் உண்மையான தயாரிப்பிற்கும் இடையிலான இடைவெளி பொறியியல் (engineering) ஆகும். நீங்கள் செலவு மற்றும் வேகத்தை நிர்வகிக்க வேண்டும்.

பணத்தைச் சேமிக்க உங்கள் வெளியீட்டைக் (output) கட்டுப்படுத்துங்கள்

பெரும்பாலான API-கள் ஒவ்வொரு டோக்கனுக்கும் (token) கட்டணம் வசூலிக்கின்றன. நீங்கள் அனுப்புவதற்கும், அவை பதிலுக்குத் திருப்பி அனுப்புவதற்கும் கட்டணம் வசூலிக்கப்படுகிறது. இன்புட் டோக்கன்களை விட அவுட்புட் டோக்கன்களுக்கு அதிக செலவாகும்.

உங்கள் ப்ராம்ப்ட்களை (prompts) சுருக்குவது மட்டும் போதாது. பதிலில் கவனம் செலுத்துங்கள். • JSON-ஐக் கேளுங்கள். • ஒரு வாக்கியமாகப் பதில் கேட்கவும். • அதிகபட்ச டோக்கன் வரம்பை (max token limit) நிர்ணயிக்கவும். • மாடலைச் சுருக்கமாகப் பதிலளிக்கச் சொல்லுங்கள்.

குறுகிய பதில்கள் மலிவானவை மற்றும் வேகமானவை.

அழைப்புகளின் (calls) எண்ணிக்கையைக் குறைக்கவும்

நீங்கள் செய்யாத அழைப்பே மிக மலிவானது.

கேச்சிங் (caching) முறையைப் பயன்படுத்துங்கள். பல பயனர்கள் ஒரே மாதிரியான கேள்விகளைக் கேட்கிறார்கள். ஒரு கேச் (cache), மெதுவான API அழைப்பை ஒரு வேகமான தேடலாக (lookup) மாற்றுகிறது.
ஒரு ரூட்டரைப் (router) பயன்படுத்துங்கள். ஒவ்வொரு பணிக்கும் உங்களுக்கு ஒரு மிகப்பெரிய மாடல் தேவையில்லை. எளிமையான வேலைகளுக்குச் சிறிய, மலிவான மாடலைப் பயன்படுத்துங்கள். கடினமான பணிகளுக்கு மட்டுமே விலையுயர்ந்த மாடலைப் பயன்படுத்துங்கள்.

பயனர் அனுபவத்தை மேம்படுத்துங்கள்

சில நேரங்களில் உங்களால் மாடலின் வேகத்தை அதிகரிக்க முடியாது. ஆனால் அது வேகமாக இருப்பது போன்ற உணர்வை நீங்கள் ஏற்படுத்த முடியும்.

பதில்களை ஸ்ட்ரீம் (stream) செய்யுங்கள். உரை உருவாகும்போதே அதைக் காட்டுங்கள். பயனர்கள் உடனடியாகப் படிக்கத் தொடங்குவார்கள். இது காத்திருப்பு நேரத்தைக் குறைவாக உணரச் செய்யும்.
முன்னேற்றத்தைக் காட்டுங்கள். வேலை பல நிலைகளைக் கொண்டிருந்தால், பயனருக்குத் தெரியப்படுத்துங்கள். வெறும் லோடிங் ஸ்பின்னருக்குப் (loading spinner) பதிலாக "ஆவணங்களைத் தேடுகிறது..." (Searching documents...) போன்ற செய்திகளைப் பயன்படுத்துங்கள்.

மெதுவான கோரிக்கைகளை (requests) நிர்வகிக்கவும்

சில மிக மெதுவான கோரிக்கைகள் உங்கள் தயாரிப்பையே கெடுத்துவிடும். அவை அப்படியே தொங்கிக்கொண்டிருக்க (hang) அனுமதிக்காதீர்கள்.

கடுமையான டைம்அவுட்களை (timeouts) நிர்ணயிக்கவும். ஒரு கோரிக்கை அதிக நேரம் எடுத்தால் என்ன செய்ய வேண்டும் என்பதைத் தீர்மானிக்கவும்.
வரம்புகளுடன் கூடிய மறுமுயற்சிகளை (retries) பயன்படுத்துங்கள். எப்போதும் மறுமுயற்சி செய்துகொண்டே இருக்காதீர்கள்.
சர்க்யூட் பிரேக்கர்களைப் (circuit breakers) பயன்படுத்துங்கள். சேவை வழங்குநர் (provider) செயலிழந்திருந்தால், கோரிக்கைகளை அனுப்புவதை நிறுத்திவிட்டு ஒரு மாற்று வழியைக் (fallback) காட்டுங்கள்.

உங்கள் தரவைக் கண்காணிக்கவும்

நீங்கள் அளவிடாத ஒன்றைத் திருத்த முடியாது. ஒவ்வொரு கோரிக்கைக்கும் இந்த மூன்று விஷயங்களைப் பதிவு செய்யுங்கள்: • இன்புட் டோக்கன்கள் (Input tokens) • அவுட்புட் டோக்கன்கள் (Output tokens) • மொத்த லேட்டன்சி (Total latency)

இவற்றை ஒவ்வொரு அம்சத்தின் (feature) அடிப்படையிலும் கண்காணிக்கவும். உங்கள் செலவுகளில் பெரும்பகுதியை ஏற்படுத்தும் ஒரு குறிப்பிட்ட அம்சத்தைக் கண்டறிய இது உதவும்.

மாடலை ஒரு மந்திரமாகப் பார்ப்பதை நிறுத்துங்கள். அதை நீங்கள் நிர்வகிக்க வேண்டிய ஒரு மெதுவான, விலையுயர்ந்த சார்பாக (dependency) கருதுங்கள்.

ஆதாரம்: https://dev.to/muhammadzainnaseer/how-to-put-an-llm-in-your-product-without-wrecking-your-costs-or-your-latency-89a

உங்கள் பட்ஜெட்டைத் தாண்டாமல் LLMகளை எவ்வாறு பயன்படுத்துவது?

உங்கள் பட்ஜெட்டைத் தாண்டாமல் LLM-களை எவ்வாறு பயன்படுத்துவது

பணத்தைச் சேமிக்க உங்கள் வெளியீட்டைக் (output) கட்டுப்படுத்துங்கள்

அழைப்புகளின் (calls) எண்ணிக்கையைக் குறைக்கவும்

பயனர் அனுபவத்தை மேம்படுத்துங்கள்

மெதுவான கோரிக்கைகளை (requests) நிர்வகிக்கவும்

உங்கள் தரவைக் கண்காணிக்கவும்

Continue reading

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

உங்கள் AI கட்டணம் என்பது மாடல் சார்ந்த பிரச்சனை அல்ல, அது ஒரு கட்டமைப்பு சார்ந்த பிரச்சனை.

செலவு அல்லது தாமதத்தை அதிகரிக்காமல் உங்கள் தயாரிப்பில் ஒரு LLM-ஐ எவ்வாறு இணைப்பது?

தரத்தை இழக்காமல் AI API செலவுகளைக் குறைக்கவும்