Groq वापरणे म्हणजे फसवणूक असल्यासारखे का वाटते?
मी अलीकडेच LangGraph वापरून एक multi-agent pipeline तयार केली. मी Groq ची तुलना मानक LLM प्रदात्यांशी (providers) केली. त्यातील फरक प्रचंड होता.
इतर प्रदाते एखाद्या सामान्य API कॉलसारखे वाटतात. तुम्ही विनंती पाठवता आणि मजकुरासाठी प्रतीक्षा करता. Groq वापरणे म्हणजे फसवणूक असल्यासारखे वाटते. मी माझा स्वतःचा प्रॉम्प्ट वाचून पूर्ण करण्यापूर्वीच एका 70B मॉडेलने पूर्ण प्रतिसाद दिला.
बहुतेक लोकांना वाटते की Groq कडे अधिक चांगले GPUs आहेत. हे चुकीचे आहे. Groq अजिबात GPUs वापरत नाही. त्यांनी LPU किंवा Language Processing Unit नावाचा एक नवीन चिप तयार केला आहे.
GPUs ग्राफिक्स आणि मॉडेल्सच्या ट्रेनिंगसाठी बनवले गेले आहेत. जेव्हा तुम्ही डेटाचे प्रचंड बॅचेस (batches) प्रोसेस करता तेव्हा ते चांगले काम करतात. परंतु, रिअल-टाइम इन्फरन्समध्ये (real-time inference) त्यांना अडचणी येतात.
समस्या "memory wall" मध्ये आहे. GPU मध्ये, मॉडेलचे वेट्स (weights) कॉम्प्युट कोअर्सपासून (compute cores) वेगळ्या मेमरीमध्ये असतात. डेटा येण्याची वाट पाहत चिप आपला खूप वेळ वाया घालवते.
Groq ने मेमरी थेट चिपवर ठेवून ही समस्या सोडवली आहे. ते HBM ऐवजी SRAM वापरतात. यामुळे बँडविड्थमध्ये (bandwidth) १० पटीने फरक पडतो. लेटन्सीचा (latency) विचार केल्यास यामुळे डेटा ॲक्सेस २० पटीने वेगवान होतो.
या वेगाचे दुसरे कारण आहे: डिटरमिनिझम (determinism).
GPUs डायनॅमिक शेड्यूलिंगचा (dynamic scheduling) वापर करतात. चिप चालू असताना काय करायचे हे ती स्वतः ठरवते. यामुळे थोडा विलंब होतो. Groq 'सॉफ्टवेअर-फर्स्ट' दृष्टिकोन वापरते. त्यांचा कंपायलर (compiler) प्रत्येक ऑपरेशन आणि सूचना आधीच मोजून काढतो. चिप एका पूर्व-निर्धारित वेळापत्रकाचे पालन करते. तिला पुढे काय करायचे आहे याचा विचार करावा लागत नाही.
निकाल स्वतःच बोलतात: • Groq वर Llama 2 70B प्रति सेकंद ३०० टोकन्स वेगाने चालते. • Nvidia H100 वर ते प्रति सेकंद ३०–४० टोकन्स वेगाने चालते. • Groq वर Llama 3 8B प्रति सेकंद १,३०० पेक्षा जास्त टोकन्सचा वेग गाठते.
Groq अधिक कार्यक्षम (efficient) देखील आहे. ते काम खूप वेगाने पूर्ण करत असल्यामुळे प्रति टोकन कमी एकूण ऊर्जा वापरते.
या डिझाइनमध्ये काही तडजोडी (tradeoffs) आहेत. SRAM महाग आहे आणि त्यासाठी खूप जागा लागते. एक चिप एखादे प्रचंड मॉडेल साठवू शकत नाही. मोठ्या मॉडेल्सना सेवा देण्यासाठी तुम्हाला शेकडो LPUs एकत्र काम करावे लागतात. यामुळे हे हार्डवेअर GPUs पेक्षा महाग होते.
Groq मॉडेल्स ट्रेन करण्याचा प्रयत्न करत नाही. ते Llama किंवा Mixtral सारखी अस्तित्वात असलेली मॉडेल्स शक्य तितक्या वेगाने चालवण्यावर लक्ष केंद्रित करतात.
उद्योग आता दोन्ही वापरण्याकडे वळत आहे. GPUs जड ट्रेनिंग आणि सुरुवातीची प्रोसेसिंग हाताळतात. LPUs जलद, रिअल-टाइम संभाषण हाताळतात.
Nvidia ने एकूण कम्प्युटेशनसाठी (total computation) ऑप्टिमायझेशन केले आहे. Groq ने कॉम्प्युटेशनने डेटाची वाट कधीही पाहू नये याची खात्री करण्यासाठी ऑप्टिमायझेशन केले आहे. रिअल-टाइम AI एजंट्ससाठी, दुसरे ध्येय अधिक महत्त्वाचे आहे.
Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm
Optional learning community: https://t.me/GyaanSetuAi
