Groq છેતરપિંડી જેવું કેમ લાગે છે?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 અઠવાડિયા પહેલાં2min read

Groq કેમ છેતરપિંડી જેવું લાગે છે

મેં તાજેતરમાં LangGraph નો ઉપયોગ કરીને એક multi-agent pipeline બનાવ્યું છે. મેં Groq ની સરખામણી પ્રમાણભૂત LLM પ્રોવાઈડર્સ સાથે કરી. તફાવત ખૂબ જ મોટો હતો.

અન્ય પ્રોવાઈડર્સ સામાન્ય API કોલ જેવા લાગે છે. તમે વિનંતી (request) મોકલો છો અને ટેક્સ્ટ માટે રાહ જુઓ છો. Groq છેતરપિંડી જેવું લાગે છે. મેં મારું પોતાનું prompt વાંચવાનું પૂરું કરતા પહેલા જ 70B મોડેલે સંપૂર્ણ પ્રતિસાદ (response) આપી દીધો.

મોટાભાગના લોકો માને છે કે Groq પાસે વધુ સારા GPUs છે. તે ખોટું છે. Groq બિલકુલ GPUs નો ઉપયોગ કરતું નથી. તેઓએ LPU, અથવા Language Processing Unit નામની નવી ચિપ બનાવી છે.

GPUs ગ્રાફિક્સ અને મોડેલ્સ ટ્રેન કરવા માટે બનાવવામાં આવ્યા હતા. જ્યારે તમે ડેટાના વિશાળ બેચ (batches) પ્રોસેસ કરો છો ત્યારે તેઓ સારી રીતે કામ કરે છે. પરંતુ તેઓ real-time inference માં સંઘર્ષ કરે છે.

સમસ્યા "memory wall" ની છે. GPU માં, મોડેલના weights કમ્પ્યુટ કોર્સ (compute cores) થી અલગ મેમરીમાં હોય છે. ચિપ ડેટા આવવાની રાહ જોવામાં ઘણો સમય બગાડે છે.

Groq એ મેમરીને સીધી ચિપ પર મૂકીને આ સમસ્યાનું સમાધાન કર્યું છે. તેઓ HBM ને બદલે SRAM નો ઉપયોગ કરે છે. આનાથી bandwidth માં 10x નો તફાવત ઊભો થાય છે. જ્યારે તમે latency ને ધ્યાનમાં લો છો, ત્યારે તે ડેટા એક્સેસને 20x ઝડપી બનાવે છે.

ઝડપનું બીજું કારણ છે: determinism.

GPUs dynamic scheduling નો ઉપયોગ કરે છે. ચિપ જ્યારે ચાલે છે ત્યારે તે શું કરવું તે નક્કી કરે છે. આનાથી નાની વિલંબ (delays) થાય છે. Groq software-first અભિગમનો ઉપયોગ કરે છે. તેમનું compiler દરેક ઓપરેશન અને ઇન્સ્ટ્રક્શન અગાઉથી જ ગણતરી કરી લે છે. ચિપ પૂર્વ-નિર્ધારિત શેડ્યૂલનું પાલન કરે છે. તેણે આગળ શું કરવું તે વિશે વિચારવાની જરૂર પડતી નથી.

પરિણામો પોતે જ બોલે છે: • Groq પર Llama 2 70B પ્રતિ સેકન્ડ 300 tokens ની ઝડપે ચાલે છે. • Nvidia H100 તેને પ્રતિ સેકન્ડ 30–40 tokens ની ઝડપે ચલાવે છે. • Groq પર Llama 3 8B પ્રતિ સેકન્ડ 1,300 થી વધુ tokens સુધી પહોંચે છે.

Groq વધુ કાર્યક્ષમ (efficient) પણ છે. તે પ્રતિ token ઓછી કુલ ઉર્જા વાપરે છે કારણ કે તે કામ ખૂબ જ ઝડપથી પૂરું કરે છે.

આ ડિઝાઇનમાં કેટલાક નુકસાન (tradeoffs) પણ છે. SRAM મોંઘું છે અને તે ઘણો ભૌતિક જગ્યા રોકે છે. એક ચિપ વિશાળ મોડેલને સમાવી શકતી નથી. મોટા મોડેલ્સ ચલાવવા માટે તમારે સેંકડો LPUs ને સાથે મળીને કામ કરવા દેવા પડે છે. આના કારણે હાર્ડવેર GPUs કરતા વધુ મોંઘું બને છે.

Groq મોડેલ્સ ટ્રેન કરવાનો પ્રયાસ કરી રહ્યું નથી. તેઓ Llama અથવા Mixtral જેવા હાલના મોડેલ્સને શક્ય તેટલી ઝડપથી ચલાવવા પર ધ્યાન કેન્દ્રિત કરે છે.

ઉદ્યોગ બંનેનો ઉપયોગ કરવા તરફ આગળ વધી રહ્યો છે. GPUs ભારે ટ્રેનિંગ અને પ્રારંભિક પ્રોસેસિંગ સંભાળે છે. LPUs ઝડપી, real-time વાતચીત સંભાળે છે.

Nvidia એ કુલ કમ્પ્યુટેશન (computation) માટે ઓપ્ટિમાઇઝ કર્યું છે. Groq એ એ સુનિશ્ચિત કરવા માટે ઓપ્ટિમાઇઝ કર્યું છે કે કમ્પ્યુટ ક્યારેય ડેટાની રાહ ન જુએ. real-time AI agents માટે, બીજું લક્ષ્ય જ મહત્વનું છે.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi

Groq છેતરપિંડી જેવું કેમ લાગે છે?

Groq કેમ છેતરપિંડી જેવું લાગે છે

Continue reading

એક GPU પર બે મોડલ ચલાવવા: લોકલ LLMs પાછળનું ગણિત

GPT તમે વિચારતા હોવ તેના કરતાં પણ વધુ કરી શકે છે

Lossless, But Not Free: When Speculative Decoding Works