Groq કેમ છેતરપિંડી જેવું લાગે છે

મેં તાજેતરમાં LangGraph નો ઉપયોગ કરીને એક multi-agent pipeline બનાવ્યું છે. મેં Groq ની સરખામણી પ્રમાણભૂત LLM પ્રોવાઈડર્સ સાથે કરી. તફાવત ખૂબ જ મોટો હતો.

અન્ય પ્રોવાઈડર્સ સામાન્ય API કોલ જેવા લાગે છે. તમે વિનંતી (request) મોકલો છો અને ટેક્સ્ટ માટે રાહ જુઓ છો. Groq છેતરપિંડી જેવું લાગે છે. મેં મારું પોતાનું prompt વાંચવાનું પૂરું કરતા પહેલા જ 70B મોડેલે સંપૂર્ણ પ્રતિસાદ (response) આપી દીધો.

મોટાભાગના લોકો માને છે કે Groq પાસે વધુ સારા GPUs છે. તે ખોટું છે. Groq બિલકુલ GPUs નો ઉપયોગ કરતું નથી. તેઓએ LPU, અથવા Language Processing Unit નામની નવી ચિપ બનાવી છે.

GPUs ગ્રાફિક્સ અને મોડેલ્સ ટ્રેન કરવા માટે બનાવવામાં આવ્યા હતા. જ્યારે તમે ડેટાના વિશાળ બેચ (batches) પ્રોસેસ કરો છો ત્યારે તેઓ સારી રીતે કામ કરે છે. પરંતુ તેઓ real-time inference માં સંઘર્ષ કરે છે.

સમસ્યા "memory wall" ની છે. GPU માં, મોડેલના weights કમ્પ્યુટ કોર્સ (compute cores) થી અલગ મેમરીમાં હોય છે. ચિપ ડેટા આવવાની રાહ જોવામાં ઘણો સમય બગાડે છે.

Groq એ મેમરીને સીધી ચિપ પર મૂકીને આ સમસ્યાનું સમાધાન કર્યું છે. તેઓ HBM ને બદલે SRAM નો ઉપયોગ કરે છે. આનાથી bandwidth માં 10x નો તફાવત ઊભો થાય છે. જ્યારે તમે latency ને ધ્યાનમાં લો છો, ત્યારે તે ડેટા એક્સેસને 20x ઝડપી બનાવે છે.

ઝડપનું બીજું કારણ છે: determinism.

GPUs dynamic scheduling નો ઉપયોગ કરે છે. ચિપ જ્યારે ચાલે છે ત્યારે તે શું કરવું તે નક્કી કરે છે. આનાથી નાની વિલંબ (delays) થાય છે. Groq software-first અભિગમનો ઉપયોગ કરે છે. તેમનું compiler દરેક ઓપરેશન અને ઇન્સ્ટ્રક્શન અગાઉથી જ ગણતરી કરી લે છે. ચિપ પૂર્વ-નિર્ધારિત શેડ્યૂલનું પાલન કરે છે. તેણે આગળ શું કરવું તે વિશે વિચારવાની જરૂર પડતી નથી.

પરિણામો પોતે જ બોલે છે: • Groq પર Llama 2 70B પ્રતિ સેકન્ડ 300 tokens ની ઝડપે ચાલે છે. • Nvidia H100 તેને પ્રતિ સેકન્ડ 30–40 tokens ની ઝડપે ચલાવે છે. • Groq પર Llama 3 8B પ્રતિ સેકન્ડ 1,300 થી વધુ tokens સુધી પહોંચે છે.

Groq વધુ કાર્યક્ષમ (efficient) પણ છે. તે પ્રતિ token ઓછી કુલ ઉર્જા વાપરે છે કારણ કે તે કામ ખૂબ જ ઝડપથી પૂરું કરે છે.

આ ડિઝાઇનમાં કેટલાક નુકસાન (tradeoffs) પણ છે. SRAM મોંઘું છે અને તે ઘણો ભૌતિક જગ્યા રોકે છે. એક ચિપ વિશાળ મોડેલને સમાવી શકતી નથી. મોટા મોડેલ્સ ચલાવવા માટે તમારે સેંકડો LPUs ને સાથે મળીને કામ કરવા દેવા પડે છે. આના કારણે હાર્ડવેર GPUs કરતા વધુ મોંઘું બને છે.

Groq મોડેલ્સ ટ્રેન કરવાનો પ્રયાસ કરી રહ્યું નથી. તેઓ Llama અથવા Mixtral જેવા હાલના મોડેલ્સને શક્ય તેટલી ઝડપથી ચલાવવા પર ધ્યાન કેન્દ્રિત કરે છે.

ઉદ્યોગ બંનેનો ઉપયોગ કરવા તરફ આગળ વધી રહ્યો છે. GPUs ભારે ટ્રેનિંગ અને પ્રારંભિક પ્રોસેસિંગ સંભાળે છે. LPUs ઝડપી, real-time વાતચીત સંભાળે છે.

Nvidia એ કુલ કમ્પ્યુટેશન (computation) માટે ઓપ્ટિમાઇઝ કર્યું છે. Groq એ એ સુનિશ્ચિત કરવા માટે ઓપ્ટિમાઇઝ કર્યું છે કે કમ્પ્યુટ ક્યારેય ડેટાની રાહ ન જુએ. real-time AI agents માટે, બીજું લક્ષ્ય જ મહત્વનું છે.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi