Subquadratic טוענת לפריצת דרך בפתרון צוואר הבקבוק הריבועי של LLM

תעשיית ה-AI סוערת סביב הסטארט-אפ Subquadratic שבסיסו במיאמי, הטוען כי פתר מגבלה מתמטית שהגבילה מודלי שפה גדולים (LLMs) במשך כמעט עשור. בעוד שהספק הראשוני היה גבוה, אימות עצמאי שנערך לאחרונה מצביע על כך שהארכיטקטורה החדשה שלהם, "SubQ", עשויה לשנות באופן יסודי את הפרדיגמה של בינה מלאכותית גנרטיבית.

הבעיה: העלות הריבועית של Dense Attention

כדי להבין את המשמעות של הטענה של Subquadratic, יש להבין את ארכיטקטורת ה-"Transformer" שהציגה גוגל בשנת 2017. רוב מודלי ה-LLM המודרניים מסתמכים על מנגנון הנקרא dense attention. בתהליך זה, כל טוקן (מילה או חלק ממילה) ברצף מוכפל בכל טוקן אחר כדי ללכוד את ההקשר.

דבר זה יוצר נטל חישובי עצום הידוע כהתרחבות ריבועית. אם מכפילים את אורך הטקסט פי שניים, הדרישות החישוביות מכפילות את עצמן פי ארבע בערך. עבור מסמך בן 10,000 מילים, המודל חייב לבצע כמעט 50 מיליון כפל בודדים. חוסר יעילות זה הוא הסיבה העיקרית לכך שמודלי LLM ידועים כ"זללני אנרגיה", הדורשים אנרגיה עצומה וחומרה יקרה כדי לעבד הקשרים ארוכים.

הפתרון: סקיילביליות באמצעות Sparse Attention

מודל ה-SubQ של Subquadratic שואף לוותר על dense attention לטובת sparse attention. פילוסופיית הליבה היא שלא כל קשר בין מילים הוא קריטי להבנת המסמך. במקום להכפיל כל טוקן בכל טוקן אחר, sparse attention בוחר רק את הקשרים הרלוונטיים ביותר לחישוב.

למרות ש-"sparse attention" אינו מושג חדש, ניסיונות קודמים התקשו לשמר את רמת ההסקה והניואנסים הגבוהה המצויה במודלים של dense attention. Subquadratic טוענת כי היא הצליחה לגשר על הפער הזה, תוך יצירת מודל המספק את היעילות של sparse attention ללא אובדן האינטליגנציה המסורתי.

תיקוף הטענות: תוצאות מ-Appen

בעקבות הספקנות המוקדמת — כאשר חלק מהמבקרים אף השוו את הטענות הלא מאומתות ל-"AI Theranos" — Subquadratic פרסמה מדדי ביצוע (benchmarks) מצד שלישי מבית Appen, חברת הערכת AI מובילה. התוצאות מהבדיקות העצמאיות של Appen תיקפו את ארכיטקטורת ה-SubQ, ותיארו את הממצאים כ"מדהימים" וכ"משני כללי משחק" פוטנציאליים.

לפי הסטארט-אפ, SubQ מציעה מספר יתרונות טכניים מהפכניים:

  • חלון הקשר (Context Window): SubQ יכולה לעבד עד פי 12 יותר טקסט בבת אחת בהשוואה לרוב המודלים הנוכחיים, מה שהופך אותה לאידיאלית לניתוח מאגרי קוד שלמים או ספריות מסמכים עצומות.
  • ביצועים: למרות הארכיטקטורה הרזה יותר, SubQ משתווה לביצועים של מובילות בתעשייה כמו OpenAI, Google DeepMind ו-Anthropic במשימות קריטיות כגון כתיבת קוד.
  • יעילות: המודל מהיר, זול ויעיל יותר מבחינת אנרגיה באופן משמעותי מאשר מודלים קיימים מבוססי Transformers.

עידן חדש מעבר ל-Transformers?

Subquadratic לא רק שואפת לאופטימיזציה של המודלים הנוכחיים; היא שואפת להחליף את ארכיטקטורת היסוד של התעשייה. המנכ"ל ג'סטין דנגל (Justin Dangel) ציין כי החברה מאמינה שעידן הבנייה על בסיס Transformers עשוי להגיע לסיומו. אם SubQ תמשיך להוכיח את יעילותה בקנה מידה רחב, המעבר מ-dense attention ל-sparse attention עשוי לייצג את השינוי המשמעותי ביותר בארכיטקטורת AI מאז המצאת ה-Transformer עצמו.

נקודות מרכזיות

  • שבירת מחסום ה-Quadratic: SubQ משתמשת ב-sparse attention כדי להימנע מהעלייה האקספוננציאלית בחישוב הנדרשת על ידי dense attention מסורתי.
  • טיפול מעולה בהקשר: המודל יכול לעבד פי 12 יותר נתונים בבת אחת, מה שמאפשר ניתוח עמוק של מערכי נתונים רחבי היקף וקוד ארוך.
  • יעילות מאומתת: בדיקה עצמאית של Appen מאשרת ש-SubQ משיגה ביצועים ברמה גבוהה (המשתווים ל-OpenAI ו-Google) בשבריר מהעלות והאנרגיה.