𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Translated for your language. Read the original.

AI-assisted draft.

நேற்று2min read

எங்களது AI கட்டணம் மிக வேகமாக வளர்ந்து வந்தது. எங்களது CFO இதைத் தாங்க முடியாத செலவு விகிதம் (unsustainable burn rate) என்று அழைத்தார். அந்த நேரத்தில், நாங்கள் அனைத்திற்கும் GPT-4o பயன்படுத்தினோம். அது சிறப்பாகச் செயல்பட்டது, ஆனால் செலவுகள் மிக அதிகமாக இருந்தன மற்றும் p99 latency சீராக இல்லை.

AI மாடல் தேர்வை ஒரு சிஸ்டம் டிசைன் (system design) பிரச்சனையாகக் கருத முடிவு செய்தேன். சிறந்த மாடலைத் தேடுவதை நிறுத்திவிட்டு, எங்களது குறிப்பிட்ட SLAs-க்கு ஏற்ற சிறந்த மாடலைத் தேடத் தொடங்கினேன்.

முதலில் நான் தெளிவான இலக்குகளை நிர்ணயித்தேன்: • சாட்டிற்கு (chat) 1.5 வினாடிகளுக்கும் குறைவான p99 latency • 99.9% availability • Multi-region failover • உச்சபட்ச சுமையின் (peak load) 3 மடங்கு Throughput capacity

இந்த எண்கள் கிடைத்தவுடன், தீர்வு தெளிவாகத் தெரிந்தது. ஒரு டோக்கனுக்கு (token) மிகக் குறைந்த விலையுள்ள மாடல் எப்போதும் தயாரிப்புப் பயன்பாட்டிற்கு (production) சிறந்த தேர்வாக இருக்காது. ஒரு மலிவான மாடல் உங்கள் latency-ஐ இருமடங்காக்கினால், நீங்கள் பயனர்களை இழப்பீர்கள்.

நான் பல மாடல்களை ஒப்பிட்டுப் பார்த்தேன். விலை வித்தியாசம் மிகப்பெரியதாக இருந்தது. GPT-4o ஒரு மில்லியன் அவுட்புட் டோக்கன்களுக்கு $10.00 செலவாகும். GLM-4 Plus-க்கு $0.80 மட்டுமே ஆகும். சுருக்கம் (summarization) மற்றும் தரவு பிரித்தெடுத்தல் (extraction) போன்ற எங்களது குறிப்பிட்ட பணிகளுக்கு GLM-4 Plus, GPT-4o அளவுக்கு ஏறத்தாழச் சிறப்பாகச் செயல்படுவதை எங்களது சோதனைகள் காட்டின.

இதை நிர்வகிக்க நான் ஒரு routing layer-ஐ உருவாக்கினேன். இந்த சிஸ்டம் பின்வரும் விதிகளைப் பின்பற்றுகிறது: • பணிச்சுமையின் (workload) வகையைப் பொறுத்து கோரிக்கைகளை (requests) வழிநடத்துதல் (Route) • latency அதிகரித்தால் ஒரு fallback மாடலைப் பயன்படுத்துதல் • டிராஃபிக்கை (traffic) பல்வேறு ரீஜியன்களுக்குப் (regions) பிரித்து அனுப்புதல் • அடிக்கடி கேட்கப்படும் கோரிக்கைகளை கேச் (cache) செய்தல்

நான் ஒரு Redis cache-ஐயும் சேர்த்தேன். இதன் hit rate ஒரு வாரத்தில் 40%-ஐ எட்டியது. இது மீண்டும் மீண்டும் கேட்கப்படும் கேள்விகளுக்கான (repeat queries) டோக்கன் செலவைக் குறைத்ததுடன், latency-ஐ 1.4 வினாடிகளிலிருந்து 200 மில்லி விநாடிகளாகக் குறைத்தது.

முடிவுகள்: • மாதாந்திர inference செலவு 58% குறைந்தது • p99 latency 1.6s-லிருந்து 1.18s ஆகக் குறைந்தது • Uptime 99.95%-இல் நிலைத்திருந்தது • Cache hit rate 42%-ஐ எட்டியது

நான் கற்றுக்கொண்ட மூன்று பாடங்கள்:

உங்களுக்கென ஒரு evaluation suite-ஐ உருவாக்குங்கள். பொதுவான benchmarks-களை நம்பாதீர்கள். உங்கள் உண்மையான production தரவைப் பயன்படுத்துங்கள்.
rate limits-ஐ உன்னிப்பாகக் கவனியுங்கள். ரீஜனல் டிராஃபிக் (Regional traffic) எதிர்பாராத உயர்வுகளை (spikes) ஏற்படுத்தலாம்.
ஒரு kill switch-ஐ உருவாக்குங்கள். ஒரு தவறான prompt, டோக்கன் பயன்பாட்டில் மிகப்பெரிய உயர்வை ஏற்படுத்தக்கூடும். அதிகபட்ச டோக்கன்களுக்கான வரம்பு (cap on max tokens) ஒருமுறை எங்களை $14,000 இழப்பிலிருந்து காப்பாற்றியது.

உங்கள் AI கட்டணம் மிக அதிகமாக இருந்தால், முதலில் உங்கள் SLA-வை வரையறுக்கவும். உண்மையான டிராஃபிக்கிலிருந்து ஒரு evaluation suite-ஐ உருவாக்கவும். பின்னர், நீங்கள் தற்போது கவனிக்காமல் விட்டுவிட்ட மாடல்களின் விலையைப் பார்க்கவும்.

Source: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Optional learning community: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Continue reading

எனது AI API செலவுகளை 70% குறைத்தேன்

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

ஒரு வார இறுதியில் எனது AI ஏஜென்ட்டின் டோக்கன் கட்டணத்தை 62% குறைத்தேன்

உங்கள் AI கட்டணத்தைக் குறைக்க 7 வழிகள்