Why Groq Feels Like Cheating

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialwiki 2 zilizopita2min read

Kwa Nini Groq Inahisi Kama Udanganyifu

Hivi karibuni nilijenga mfumo wa multi-agent ukitumia LangGraph. Nililinganisha Groq na watoa huduma wa kawaida wa LLM. Tofauti ilikuwa kubwa sana.

Watoa huduma wengine wanahisi kama mwito wa kawaida wa API. Unatuma ombi na kusubiri maandishi. Groq inahisi kama udanganyifu. Mfano wa 70B ulitoa jibu kamili kabla hata sijamaliza kusoma prompt yangu mwenyewe.

Watu wengi wanadhani Groq ina GPU bora zaidi. Hiyo si kweli. Groq haitumii GPU kabisa. Wameunda chip mpya inayoitwa LPU, au Language Processing Unit.

GPU zilifanyiwa kazi kwa ajili ya graphics na kufundisha mifumo (training models). Zinafanya kazi vizuri unapochakata makundi makubwa ya data. Lakini zinapata shida na utabiri wa wakati halisi (real-time inference).

Tatizo ni "ukuta wa kumbukumbu" (memory wall). Katika GPU, uzito wa mfumo (model weights) huishi kwenye kumbukumbu iliyotengwa na kiini cha uchakataji (compute cores). Chip hutumia muda mwingi kusubiri data ifike.

Groq ilitatua hili kwa kuweka kumbukumbu moja kwa moja kwenye chip. Wanatumia SRAM badala ya HBM. Hii inatengeneza pengo la mara 10 katika bandwidth. Pia inafanya upatikanaji wa data kuwa wa haraka mara 20 zaidi unapozingatia ucheleweshaji (latency).

Kuna sababu nyingine ya kasi hiyo: determinism.

GPU hutumia upangaji wa kidinamiki (dynamic scheduling). Chip huamua nini cha kufanya wakati inafanya kazi. Hii inasababisha ucheleweshaji mdogo sana. Groq inatumia mbinu inayozingatia programu kwanza (software-first approach). Kichanganuzi chao (compiler) hupiga hesabu kila operesheni na maelekezo kabla ya wakati. Chip hufuata ratiba iliyopangwa mapema. Haitegemei kufikiria nini cha kufanya baadaye.

Matokeo yanajieleza yenyewe: • Llama 2 70B inafanya kazi kwa tokeni 300 kwa sekunde kwenye Groq. • Nvidia H100 inafanya kazi kwa tokeni 30–40 kwa sekunde. • Llama 3 8B inafikia zaidi ya tokeni 1,300 kwa sekunde kwenye Groq.

Groq pia ni bora zaidi (efficient). Inatumia nishati kidogo zaidi kwa kila token kwa sababu inamaliza kazi kwa haraka sana.

Muundo huu una changamoto zake (tradeoffs). SRAM ni ghali na inachukua nafasi kubwa ya kifizikia. Chip moja haiwezi kubeba mfumo mkubwa sana. Unahitaji mamia ya LPUs zinazofanya kazi pamoja ili kuhudumia mifumo mikubwa. Hii inafanya vifaa hivyo kuwa ghali zaidi kuliko GPU.

Groq haijajaribu kufundisha mifumo (train models). Wanajikita katika kuendesha mifumo iliyopo kama Llama au Mixtral kwa haraka iwezekanavyo.

Sekta hii inasogea kuelekea kutumia zote mbili. GPU hushughulikia mafunzo mazito na uchakataji wa awali. LPUs hushughulikia mazungumzo ya haraka ya wakati halisi.

Nvidia iliboreshwa kwa ajili ya jumla ya uchakataji (total computation). Groq iliboreshwa ili kuhakikisha uchakataji haungoji data kamwe. Kwa ajili ya AI agents wa wakati halisi, lengo la pili ndilo muhimu zaidi.

Chanzo: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Jumuiya ya kujifunzia ya hiari: https://t.me/GyaanSetuAi

Why Groq Feels Like Cheating

Continue reading

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸

Bila Kupoteza Ubora, Lakini Si Bure: Wakati Speculative Decoding Inafanya Kazi