Why Groq Feels Like Cheating

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२ आठवड्यांपूर्वी2min read

Groq वापरणे म्हणजे फसवणूक असल्यासारखे का वाटते?

मी अलीकडेच LangGraph वापरून एक multi-agent pipeline तयार केली. मी Groq ची तुलना मानक LLM प्रदात्यांशी (providers) केली. त्यातील फरक प्रचंड होता.

इतर प्रदाते एखाद्या सामान्य API कॉलसारखे वाटतात. तुम्ही विनंती पाठवता आणि मजकुरासाठी प्रतीक्षा करता. Groq वापरणे म्हणजे फसवणूक असल्यासारखे वाटते. मी माझा स्वतःचा प्रॉम्प्ट वाचून पूर्ण करण्यापूर्वीच एका 70B मॉडेलने पूर्ण प्रतिसाद दिला.

बहुतेक लोकांना वाटते की Groq कडे अधिक चांगले GPUs आहेत. हे चुकीचे आहे. Groq अजिबात GPUs वापरत नाही. त्यांनी LPU किंवा Language Processing Unit नावाचा एक नवीन चिप तयार केला आहे.

GPUs ग्राफिक्स आणि मॉडेल्सच्या ट्रेनिंगसाठी बनवले गेले आहेत. जेव्हा तुम्ही डेटाचे प्रचंड बॅचेस (batches) प्रोसेस करता तेव्हा ते चांगले काम करतात. परंतु, रिअल-टाइम इन्फरन्समध्ये (real-time inference) त्यांना अडचणी येतात.

समस्या "memory wall" मध्ये आहे. GPU मध्ये, मॉडेलचे वेट्स (weights) कॉम्प्युट कोअर्सपासून (compute cores) वेगळ्या मेमरीमध्ये असतात. डेटा येण्याची वाट पाहत चिप आपला खूप वेळ वाया घालवते.

Groq ने मेमरी थेट चिपवर ठेवून ही समस्या सोडवली आहे. ते HBM ऐवजी SRAM वापरतात. यामुळे बँडविड्थमध्ये (bandwidth) १० पटीने फरक पडतो. लेटन्सीचा (latency) विचार केल्यास यामुळे डेटा ॲक्सेस २० पटीने वेगवान होतो.

या वेगाचे दुसरे कारण आहे: डिटरमिनिझम (determinism).

GPUs डायनॅमिक शेड्यूलिंगचा (dynamic scheduling) वापर करतात. चिप चालू असताना काय करायचे हे ती स्वतः ठरवते. यामुळे थोडा विलंब होतो. Groq 'सॉफ्टवेअर-फर्स्ट' दृष्टिकोन वापरते. त्यांचा कंपायलर (compiler) प्रत्येक ऑपरेशन आणि सूचना आधीच मोजून काढतो. चिप एका पूर्व-निर्धारित वेळापत्रकाचे पालन करते. तिला पुढे काय करायचे आहे याचा विचार करावा लागत नाही.

निकाल स्वतःच बोलतात: • Groq वर Llama 2 70B प्रति सेकंद ३०० टोकन्स वेगाने चालते. • Nvidia H100 वर ते प्रति सेकंद ३०–४० टोकन्स वेगाने चालते. • Groq वर Llama 3 8B प्रति सेकंद १,३०० पेक्षा जास्त टोकन्सचा वेग गाठते.

Groq अधिक कार्यक्षम (efficient) देखील आहे. ते काम खूप वेगाने पूर्ण करत असल्यामुळे प्रति टोकन कमी एकूण ऊर्जा वापरते.

या डिझाइनमध्ये काही तडजोडी (tradeoffs) आहेत. SRAM महाग आहे आणि त्यासाठी खूप जागा लागते. एक चिप एखादे प्रचंड मॉडेल साठवू शकत नाही. मोठ्या मॉडेल्सना सेवा देण्यासाठी तुम्हाला शेकडो LPUs एकत्र काम करावे लागतात. यामुळे हे हार्डवेअर GPUs पेक्षा महाग होते.

Groq मॉडेल्स ट्रेन करण्याचा प्रयत्न करत नाही. ते Llama किंवा Mixtral सारखी अस्तित्वात असलेली मॉडेल्स शक्य तितक्या वेगाने चालवण्यावर लक्ष केंद्रित करतात.

उद्योग आता दोन्ही वापरण्याकडे वळत आहे. GPUs जड ट्रेनिंग आणि सुरुवातीची प्रोसेसिंग हाताळतात. LPUs जलद, रिअल-टाइम संभाषण हाताळतात.

Nvidia ने एकूण कम्प्युटेशनसाठी (total computation) ऑप्टिमायझेशन केले आहे. Groq ने कॉम्प्युटेशनने डेटाची वाट कधीही पाहू नये याची खात्री करण्यासाठी ऑप्टिमायझेशन केले आहे. रिअल-टाइम AI एजंट्ससाठी, दुसरे ध्येय अधिक महत्त्वाचे आहे.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi

Why Groq Feels Like Cheating

Continue reading

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

GPT तुमच्या कल्पनेपेक्षाही जास्त करू शकते

Lossless, But Not Free: When Speculative Decoding Works