אף אחד כבר לא רוצה את המודל שלך עם 70B פרמטרים
עולם ה-AI נהג להתמקד רק בקנה מידה.
אנשים רדפו אחרי מודלים גדולים יותר, חלונות הקשר (context windows) גדולים יותר ומדדי ביצוע (benchmarks) גדולים יותר. אם המודל שלך לא היה עצום, לא היית במשחק.
העידן הזה מסתיים.
מודלים עצומים הם מרשימים. אבל רוב האנשים לא זקוקים לכוח כזה. עוזר של לוח מחוונים ברכב לא צריך לכתוב שירים. הוא צריך להבין "תוריד את המזגן" ולפעול מבלי לרוקן את הסוללה.
מודלים קטנים ומתמחים תופסים את מקומם מ-5 סיבות עיקריות:
- שימוש במכשיר (On-device): לטלפונים יש כיום חומרה להרצת מודלים קטנים באופן מקומי. העוזר שלך יעבוד במנהרה או בטיסה ללא אינטרנט.
- פרטיות ורגולציה: בתי חולים ומשרדי עורכי דין לא יכולים לשלוח נתונים רגישים ל-API של צד שלישי. הרצת מודל קטן על חומרה מקומית שומרת על הנתונים בתוך המבנה.
- שיהוי (latency) נמוך: מכונית אוטונומית לא יכולה לחכות ששרת בענן יחליט אם צורה מסוימת היא הולך רגל. המודל חייב להתקיים במקום שבו מתקבלת ההחלטה.
- עלויות נמוכות יותר: הרצת מיליוני בקשות על מודל עצום הורסת את שולי הרווח שלך. מודל קטן ומכוונן (tuned) הוא לרוב זול ובר-קיימא יותר.
- קישוריות גרועה: בחלקים רבים של העולם, האינטרנט אינו קבוע. מודלים קטנים מאפשרים למוצרים לתפקד ללא חיבור (offline).
ניתן להקטין מודלים באמצעות שלוש שיטות עיקריות:
- קוונטיזציה (Quantization): הפחתת הדיוק של משקלי המודל כדי לחסוך במקום.
- גיזום (Pruning): הסרת קשרים מיותרים שאינם מוסיפים ערך.
- זיקוק ידע (Knowledge distillation): שימוש במודל גדול כדי ללמד מודל קטן איך לחקות את הלוגיקה שלו.
השינוי הזה משנה את מערך הכישורים הנדרש.
כתיבת פרומפטים (Prompting) למודל ענק היא מיומנות אחת. בחירה, כוונון עדין (fine-tuning) ופריסה של מודל מתמחה הן אתגר הנדסי אחר. מדובר בעשיית איזונים (tradeoffs) בין מהירות, עלות ודיוק.
הפסיקו לנסות לבנות כלי ענק אחד שעושה הכל בצורה גרועה. בנו כמה כלים קטנים שעושים דבר אחד היטב.
מודל קטן הוא לא ירידה ברמה (downgrade). הוא כלי טוב יותר למשימה.
מקור: https://dev.to/blakcodes/nobody-wants-your-70b-parameter-model-anymore-56jo
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi