למה Groq מרגיש כמו רמאות

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialלפני שבועיים2min read

למה Groq מרגיש כמו רמאות

לאחרונה בניתי multi-agent pipeline באמצעות LangGraph. השוויתי את Groq לספקי LLM סטנדרטיים. ההבדל הרגיש עצום.

ספקים אחרים מרגישים כמו קריאת API רגילה. אתם שולחים בקשה ומחכים לטקסט. Groq מרגיש כמו רמאות. מודל 70B החזיר תגובה מלאה עוד לפני שסיימתי לקרוא את ה-prompt שלי.

רוב האנשים מניחים של-Groq יש GPUs טובים יותר. זה לא נכון. Groq בכלל לא משתמשת ב-GPUs. הם בנו שבב חדש שנקרא LPU, או Language Processing Unit.

GPUs נועדו לגרפיקה ולאימון מודלים. הם עובדים טוב כשמעבדים batches עצומים של נתונים. אבל הם מתקשים עם real-time inference.

הבעיה היא ה-"memory wall". ב-GPU, משקלי המודל (model weights) נמצאים בזיכרון נפרד מליבות החישוב (compute cores). השבב מבלה יותר מדי זמן בהמתנה להגעת הנתונים.

Groq פתרה את זה על ידי הצבת הזיכרון ישירות על השבב. הם משתמשים ב-SRAM במקום ב-HBM. זה יוצר פער של פי 10 ב-bandwidth. זה גם הופך את הגישה לנתונים למהירה פי 20 כשמתחשבים ב-latency.

יש סיבה נוספת למהירות: דטרמיניזם (determinism).

GPUs משתמשים ב-dynamic scheduling. השבב מחליט מה לעשות תוך כדי פעולה. זה יוצר עיכובים קטנים. Groq משתמשת בגישת software-first. הקומפיילר שלהם מחשב כל פעולה ופקודה מראש. השבב עוקב אחר לו"ז שנקבע מראש. הוא לא צריך לחשוב מה לעשות בשלב הבא.

התוצאות מדברות בעד עצמן: • Llama 2 70B רץ ב-300 tokens per second ב-Groq. • Nvidia H100 מריץ אותו ב-30–40 tokens per second. • Llama 3 8B מגיע ליותר מ-1,300 tokens per second ב-Groq.

Groq גם יעילה יותר. היא משתמשת בפחות אנרגיה כוללת לכל token כי היא מסיימת את העבודה הרבה יותר מהר.

לעוצבת הזה יש tradeoffs. SRAM הוא יקר ותופס הרבה מקום פיזי. שבב אחד לא יכול להכיל מודל ענק. צריך מאות LPUs שעובדים יחד כדי להריץ מודלים גדולים. זה הופך את החומרה ליקרה יותר מאשר GPUs.

Groq לא מנסה לאמן מודלים. הם מתמקדים בהרצת מודלים קיימים כמו Llama או Mixtral כמה שיותר מהר.

התעשייה נעה לכיוון שימוש בשניהם. GPUs מטפלים באימון הכבד ובעיבוד הראשוני. LPUs מטפלים בשיחה מהירה בזמן אמת.

Nvidia אופטימיזציה עבור חישוב כולל. Groq אופטימיזציה כדי להבטיח שהחישוב לעולם לא ימתין לנתונים. עבור AI agents בזמן אמת, המטרה השנייה היא זו שקובעת.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Optional learning community: https://t.me/GyaanSetuAi

למה Groq מרגיש כמו רמאות

Continue reading

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

GPT עושה יותר ממה שאתם חושבים

ללא אובדן, אך לא בחינם: מתי פענוח ספקולטיבי (Speculative Decoding) עובד