Why Groq ஏன் ஏமாற்றுவது போலத் தோன்றுகிறது

நான் சமீபத்தில் LangGraph பயன்படுத்தி ஒரு multi-agent pipeline-ஐ உருவாக்கினேன். நான் Groq-ஐ வழக்கமான LLM வழங்குநர்களுடன் ஒப்பிட்டுப் பார்த்தேன். அதன் வித்தியாசம் மிகப்பெரியதாக இருந்தது.

மற்ற வழங்குநர்கள் ஒரு சாதாரண API call போலத் தோன்றுகிறார்கள். நீங்கள் ஒரு கோரிக்கையை (request) அனுப்பிவிட்டு, உரைக்காகக் காத்திருக்க வேண்டும். ஆனால் Groq ஏமாற்றுவது போலத் தோன்றுகிறது. நான் எனது prompt-ஐப் படித்து முடிப்பதற்கு முன்பே, ஒரு 70B மாடல் முழுமையான பதிலைத் தந்துவிட்டது.

Groq-விடம் சிறந்த GPUs உள்ளன என்று பெரும்பாலான மக்கள் நினைக்கிறார்கள். அது தவறு. Groq எங்குமே GPUs-களைப் பயன்படுத்துவதில்லை. அவர்கள் LPU அல்லது Language Processing Unit என்று அழைக்கப்படும் ஒரு புதிய சிப்பை (chip) உருவாக்கியுள்ளனர்.

GPUs கிராபிக்ஸ் மற்றும் மாடல்களைப் பயிற்றுவிப்பதற்காக (training) உருவாக்கப்பட்டவை. நீங்கள் மிகப்பெரிய அளவிலான தரவுகளை (massive batches of data) செயலாக்கும்போது அவை சிறப்பாகச் செயல்படும். ஆனால் நிகழ்நேர அனுமானத்தில் (real-time inference) அவை சிரமப்படுகின்றன.

பிரச்சனை "memory wall" ஆகும். ஒரு GPU-வில், மாடல் எடைகள் (model weights) கணக்கீட்டு மையங்களிலிருந்து (compute cores) தனித்த ஒரு நினைவகத்தில் (memory) இருக்கும். தரவு வந்து சேருவதற்காக அந்த சிப் அதிக நேரத்தைச் செலவிடுகிறது.

நினைவகத்தை நேரடியாக சிப்பிலேயே வைப்பதன் மூலம் Groq இதைத் தீர்த்துள்ளது. அவர்கள் HBM-க்கு பதிலாக SRAM-ஐப் பயன்படுத்துகிறார்கள். இது bandwidth-இல் 10 மடங்கு இடைவெளியை உருவாக்குகிறது. தாமதத்தையும் (latency) கணக்கில் கொண்டால், இது தரவு அணுகலை 20 மடங்கு வேகமாக்குகிறது.

இந்த வேகத்திற்கு மற்றொரு காரணம்: determinism.

GPUs dynamic scheduling முறையைப் பயன்படுத்துகின்றன. சிப் இயங்கிக் கொண்டிருக்கும்போதே அடுத்து என்ன செய்ய வேண்டும் என்பதை அது தீர்மானிக்கிறது. இது சிறிய தாமதங்களை உருவாக்குகிறது. Groq ஒரு software-first அணுகுமுறையைப் பயன்படுத்துகிறது. அவற்றின் compiler ஒவ்வொரு செயல்பாட்டையும் (operation) மற்றும் அறிவுறுத்தலையும் (instruction) முன்கூட்டியே கணக்கிடுகிறது. சிப் ஏற்கனவே தீர்மானிக்கப்பட்ட ஒரு அட்டவணையைப் (pre-set schedule) பின்பற்றுகிறது. அடுத்து என்ன செய்ய வேண்டும் என்று அது சிந்திக்க வேண்டிய அவசியமில்லை.

முடிவுகள் அதையே கூறுகின்றன: • Groq-இல் Llama 2 70B ஒரு வினாடிக்கு 300 tokens வேகத்தில் இயங்குகிறது. • ஒரு Nvidia H100 அதை ஒரு வினாடிக்கு 30–40 tokens வேகத்தில் இயக்குகிறது. • Groq-இல் Llama 3 8B ஒரு வினாடிக்கு 1,300 tokens-க்கும் அதிகமான வேகத்தை எட்டுகிறது.

Groq மிகவும் திறமையானது (efficient) கூட. இது வேலையை மிக விரைவாக முடிப்பதால், ஒரு token-க்குத் தேவைப்படும் மொத்த ஆற்றல் (energy) குறைவு.

இந்த வடிவமைப்பில் சில சமரசங்கள் (tradeoffs) உள்ளன. SRAM விலை உயர்ந்தது மற்றும் அதிக இடத்தைப் பிடிக்கும். ஒரு சிப்பால் ஒரு மிகப்பெரிய மாடலைத் தாங்க முடியாது. பெரிய மாடல்களை இயக்க நூற்றுக்கணக்கான LPUs இணைந்து செயல்பட வேண்டும். இது வன்பொருளை (hardware) GPUs-களை விட அதிக விலையுயர்ந்ததாக மாற்றுகிறது.

Groq மாடல்களைப் பயிற்றுவிக்க முயலவில்லை. அவர்கள் Llama அல்லது Mixtral போன்ற ஏற்கனவே உள்ள மாடல்களை எவ்வளவு வேகமாகக் கொண்டு வர முடியுமோ அவ்வளவு வேகமாக இயக்குவதில் கவனம் செலுத்துகிறார்கள்.

இந்தத் துறை இரண்டையும் பயன்படுத்துவதை நோக்கி நகர்ந்து கொண்டிருக்கிறது. GPUs கடினமான பயிற்சி (heavy training) மற்றும் ஆரம்பக்கட்டச் செயலாக்கத்தைக் (initial processing) கையாளுகின்றன. LPUs வேகமான, நிகழ்நேர உரையாடல்களைக் கையாளுகின்றன.

Nvidia மொத்தக் கணக்கீட்டிற்காக (total computation) மேம்படுத்தப்பட்டுள்ளது. Groq கணக்கீடு தரவுக்காக ஒருபோதும் காத்திருக்காமல் இருப்பதை உறுதி செய்ய மேம்படுத்தப்பட்டுள்ளது. நிகழ்நேர AI agents-களுக்கு, இரண்டாவது குறிக்கோளே முக்கியமானது.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi