Groq ஏன் ஏமாற்றுவது போலத் தோன்றுகிறது?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 வாரங்களுக்கு முன்2min read

Why Groq ஏன் ஏமாற்றுவது போலத் தோன்றுகிறது

நான் சமீபத்தில் LangGraph பயன்படுத்தி ஒரு multi-agent pipeline-ஐ உருவாக்கினேன். நான் Groq-ஐ வழக்கமான LLM வழங்குநர்களுடன் ஒப்பிட்டுப் பார்த்தேன். அதன் வித்தியாசம் மிகப்பெரியதாக இருந்தது.

மற்ற வழங்குநர்கள் ஒரு சாதாரண API call போலத் தோன்றுகிறார்கள். நீங்கள் ஒரு கோரிக்கையை (request) அனுப்பிவிட்டு, உரைக்காகக் காத்திருக்க வேண்டும். ஆனால் Groq ஏமாற்றுவது போலத் தோன்றுகிறது. நான் எனது prompt-ஐப் படித்து முடிப்பதற்கு முன்பே, ஒரு 70B மாடல் முழுமையான பதிலைத் தந்துவிட்டது.

Groq-விடம் சிறந்த GPUs உள்ளன என்று பெரும்பாலான மக்கள் நினைக்கிறார்கள். அது தவறு. Groq எங்குமே GPUs-களைப் பயன்படுத்துவதில்லை. அவர்கள் LPU அல்லது Language Processing Unit என்று அழைக்கப்படும் ஒரு புதிய சிப்பை (chip) உருவாக்கியுள்ளனர்.

GPUs கிராபிக்ஸ் மற்றும் மாடல்களைப் பயிற்றுவிப்பதற்காக (training) உருவாக்கப்பட்டவை. நீங்கள் மிகப்பெரிய அளவிலான தரவுகளை (massive batches of data) செயலாக்கும்போது அவை சிறப்பாகச் செயல்படும். ஆனால் நிகழ்நேர அனுமானத்தில் (real-time inference) அவை சிரமப்படுகின்றன.

பிரச்சனை "memory wall" ஆகும். ஒரு GPU-வில், மாடல் எடைகள் (model weights) கணக்கீட்டு மையங்களிலிருந்து (compute cores) தனித்த ஒரு நினைவகத்தில் (memory) இருக்கும். தரவு வந்து சேருவதற்காக அந்த சிப் அதிக நேரத்தைச் செலவிடுகிறது.

நினைவகத்தை நேரடியாக சிப்பிலேயே வைப்பதன் மூலம் Groq இதைத் தீர்த்துள்ளது. அவர்கள் HBM-க்கு பதிலாக SRAM-ஐப் பயன்படுத்துகிறார்கள். இது bandwidth-இல் 10 மடங்கு இடைவெளியை உருவாக்குகிறது. தாமதத்தையும் (latency) கணக்கில் கொண்டால், இது தரவு அணுகலை 20 மடங்கு வேகமாக்குகிறது.

இந்த வேகத்திற்கு மற்றொரு காரணம்: determinism.

GPUs dynamic scheduling முறையைப் பயன்படுத்துகின்றன. சிப் இயங்கிக் கொண்டிருக்கும்போதே அடுத்து என்ன செய்ய வேண்டும் என்பதை அது தீர்மானிக்கிறது. இது சிறிய தாமதங்களை உருவாக்குகிறது. Groq ஒரு software-first அணுகுமுறையைப் பயன்படுத்துகிறது. அவற்றின் compiler ஒவ்வொரு செயல்பாட்டையும் (operation) மற்றும் அறிவுறுத்தலையும் (instruction) முன்கூட்டியே கணக்கிடுகிறது. சிப் ஏற்கனவே தீர்மானிக்கப்பட்ட ஒரு அட்டவணையைப் (pre-set schedule) பின்பற்றுகிறது. அடுத்து என்ன செய்ய வேண்டும் என்று அது சிந்திக்க வேண்டிய அவசியமில்லை.

முடிவுகள் அதையே கூறுகின்றன: • Groq-இல் Llama 2 70B ஒரு வினாடிக்கு 300 tokens வேகத்தில் இயங்குகிறது. • ஒரு Nvidia H100 அதை ஒரு வினாடிக்கு 30–40 tokens வேகத்தில் இயக்குகிறது. • Groq-இல் Llama 3 8B ஒரு வினாடிக்கு 1,300 tokens-க்கும் அதிகமான வேகத்தை எட்டுகிறது.

Groq மிகவும் திறமையானது (efficient) கூட. இது வேலையை மிக விரைவாக முடிப்பதால், ஒரு token-க்குத் தேவைப்படும் மொத்த ஆற்றல் (energy) குறைவு.

இந்த வடிவமைப்பில் சில சமரசங்கள் (tradeoffs) உள்ளன. SRAM விலை உயர்ந்தது மற்றும் அதிக இடத்தைப் பிடிக்கும். ஒரு சிப்பால் ஒரு மிகப்பெரிய மாடலைத் தாங்க முடியாது. பெரிய மாடல்களை இயக்க நூற்றுக்கணக்கான LPUs இணைந்து செயல்பட வேண்டும். இது வன்பொருளை (hardware) GPUs-களை விட அதிக விலையுயர்ந்ததாக மாற்றுகிறது.

Groq மாடல்களைப் பயிற்றுவிக்க முயலவில்லை. அவர்கள் Llama அல்லது Mixtral போன்ற ஏற்கனவே உள்ள மாடல்களை எவ்வளவு வேகமாகக் கொண்டு வர முடியுமோ அவ்வளவு வேகமாக இயக்குவதில் கவனம் செலுத்துகிறார்கள்.

இந்தத் துறை இரண்டையும் பயன்படுத்துவதை நோக்கி நகர்ந்து கொண்டிருக்கிறது. GPUs கடினமான பயிற்சி (heavy training) மற்றும் ஆரம்பக்கட்டச் செயலாக்கத்தைக் (initial processing) கையாளுகின்றன. LPUs வேகமான, நிகழ்நேர உரையாடல்களைக் கையாளுகின்றன.

Nvidia மொத்தக் கணக்கீட்டிற்காக (total computation) மேம்படுத்தப்பட்டுள்ளது. Groq கணக்கீடு தரவுக்காக ஒருபோதும் காத்திருக்காமல் இருப்பதை உறுதி செய்ய மேம்படுத்தப்பட்டுள்ளது. நிகழ்நேர AI agents-களுக்கு, இரண்டாவது குறிக்கோளே முக்கியமானது.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi

Groq ஏன் ஏமாற்றுவது போலத் தோன்றுகிறது?

Continue reading

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

நீங்கள் நினைப்பதை விட GPT அதிகமானது

Lossless, But Not Free: When Speculative Decoding Works