لماذا يبدو Groq وكأنه غش
قمت مؤخرًا ببناء خط معالجة متعدد الوكلاء (multi-agent pipeline) باستخدام LangGraph. قارنت Groq بمزودي LLM التقليديين، وكان الفرق هائلاً.
يبدو التعامل مع المزودين الآخرين كأنه استدعاء API عادي؛ ترسل طلبًا وتنتظر النص. أما Groq فيبدو وكأنه غش؛ فقد أعاد نموذج 70B استجابة كاملة قبل أن أنتهي من قراءة المطالبة (prompt) الخاصة بي.
يفترض معظم الناس أن Groq يمتلك وحدات GPU أفضل، وهذا خطأ. Groq لا يستخدم وحدات GPU على الإطلاق، بل قاموا ببناء شريحة جديدة تسمى LPU، أو وحدة معالجة اللغة (Language Processing Unit).
صُممت وحدات GPU للرسومات وتدريب النماذج، وهي تعمل بشكل جيد عند معالجة دفعات ضخمة من البيانات، لكنها تواجه صعوبة في الاستدلال (inference) في الوقت الفعلي.
المشكلة تكمن في "جدار الذاكرة" (memory wall). في وحدة GPU، تعيش أوزان النموذج في ذاكرة منفصلة عن نوى الحوسبة، مما يجعل الشريحة تقضي وقتًا طويلاً جدًا في انتظار وصول البيانات.
حل Groq هذه المشكلة بوضع الذاكرة مباشرة على الشريحة، حيث يستخدمون SRAM بدلاً من HBM. يؤدي هذا إلى فجوة قدرها 10 أضعاف في عرض النطاق الترددي (bandwidth)، كما يجعل الوصول إلى البيانات أسرع بـ 20 مرة عند احتساب زمن الاستجابة (latency).
هناك سبب آخر لهذه السرعة: الحتمية (determinism).
تستخدم وحدات GPU الجدولة الديناميكية، حيث تقرر الشريحة ما ستفعله أثناء التشغيل، مما يتسبب في تأخيرات طفيفة. أما Groq فيعتمد نهجًا يركز على البرمجيات أولاً؛ حيث يقوم المترجم (compiler) الخاص بهم بحساب كل عملية وتعليمات مسبقًا، وتتبع الشريحة جدولاً زمنياً محدداً مسبقاً، فلا تضطر للتفكير فيما ستفعله لاحقاً.
النتائج تتحدث عن نفسها: • يعمل Llama 2 70B بسرعة 300 توكن في الثانية على Groq. • تعمل وحدة Nvidia H100 عليه بسرعة 30–40 توكن في الثانية. • يصل Llama 3 8B إلى أكثر من 1,300 توكن في الثانية على Groq.
Groq أكثر كفاءة أيضًا، حيث يستهلك طاقة إجمالية أقل لكل توكن لأنه ينهي العمل بسرعة أكبر بكثير.
هذا التصميم له مقايضات؛ فذاكرة SRAM مكلفة وتأخذ مساحة فيزيائية كبيرة، ولا يمكن لشريحة واحدة استيعاب نموذج ضخم، لذا تحتاج إلى مئات من وحدات LPU التي تعمل معًا لخدمة النماذج الكبيرة، مما يجعل الأجهزة أكثر تكلفة من وحدات GPU.
Groq لا يحاول تدريب النماذج، بل يركز على تشغيل النماذج الحالية مثل Llama أو Mixtral بأسرع ما يمكن.
يتجه القطاع نحو استخدام كليهما؛ حيث تتولى وحدات GPU التدريب الثقيل والمعالجة الأولية، بينما تتولى وحدات LPU المحادثات السريعة في الوقت الفعلي.
قامت Nvidia بالتحسين من أجل إجمالي الحوسبة، بينما قام Groq بالتحسين لضمان عدم انتظار الحوسبة للبيانات أبدًا. وبالنسبة لوكلاء الذكاء الاصطناعي (AI agents) في الوقت الفعلي، فإن الهدف الثاني هو الأهم.
المصدر: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
