𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 מצמצמים את עלויות ה-Attention Scaling

מודלי attention סטנדרטיים מתקשים עם רצפים ארוכים. עלויות הזיכרון והחישוב גדלות מהר מדי ככל שהטקסט מתארך. זה מגביל את חלונות ההקשר (context windows) לכמה אלפי טוקנים.

Sparse KV caches משנים זאת. הם הופכים עלויות ריבועיות לעלויות כמעט ליניאריות. במקום לסרוק כל בלוק זיכרון, כל שאילתה (query) בוחנת תת-קבוצה קטנה של נתונים.

השינוי הזה הופך חלונות הקשר עצומים למעשיים על GPU בודד.

תוצאות מרכזיות ממחקר ה-MiniMax:

• MSA מפחית את חישוב ה-attention לכל טוקן ב-28.4x בהקשר של מיליון טוקנים. • השימוש בזיכרון KV יורד בעד 50%. • ה-Perplexity נשאר זהה למודלים צפופים (dense models), מה שאומר שאין אובדן דיוק. • ה-Prefill רץ מהר יותר פי 14.2 על GPU מסוג H800. • ה-Decoding רץ מהר יותר פי 7.6 על GPU מסוג H800.

האצות אלו נובעות מבורר (selector) Top-k חדש ומשימוש טוב יותר ב-tensor-cores.

ישנם פשרות (trade-offs) שיש לקחת בחשבון. התוצאות מגיעות ממודל ספציפי בעל 109B פרמטרים. אנחנו עדיין לא יודעים אם השיפורים הללו תקפים לכל סוגי החומרה או המודלים. כמו כן, השיטה מניחה שהטוקנים הרלוונטיים נשארים בטווח מסוים. משימות הדורשות attention גלובלי עלולות להיתקל בבעיות.

אם השיטות הללו יתפשטו, תוכלו להכפיל או לשלש את חלונות ההקשר שלכם על GPUs סטנדרטיים. תוכלו להריץ ניתוח קוד על מאגרי קוד (repositories) שלמים או לשמור זיכרון שיח ארוך ללא חומרה נוספת.

מקור: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

FastContex: הפרדת החיפוש מהפתרון

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻