GPT עושה יותר ממה שאתם חושבים
מודלי GPT משנים את הדרך שבה אנו עובדים עם טקסט.
המסע החל עם GPT-1. הוא הראה שמכונות יכולות לכתוב משפטים קוהרנטיים. GPT-2 הגיע בעקבותיו והראה כמה פוטנציאל יש למודלים הללו. לאחר מכן הגיע GPT-3. עם 175 מיליארד פרמטרים, הוא הוכיח שמודלים יכולים לעשות יותר מאשר רק להשלים משפט.
הסוד הוא ארכיטקטורת ה-Transformer. היא לומדת תבניות מכמויות עצומות של נתונים. אין צורך לתכנת כל חוק. ניתן לבצע fine-tuning למשימות ספציפיות או להשתמש בשפה טבעית כדי להנחות אותה.
אך הרצת המודלים הללו בסביבת ייצור (production) היא משימה קשה.
שיהוי (latency) גבוה עלול להרוס את חווית המשתמש. הרצנו מודלים גדולים על 64 מעבדים גרפיים מסוג Nvidia H100. השיהוי היה 120ms. זה היה איטי מדי עבור הצרכים שלנו. עברנו למודל קטן יותר בעל 6 מיליארד פרמטרים באמצעות LoRA. זה הפחית את ה-latency ל-38ms. זה גם חסך לנו 30,000$ בכל חודש. איבדנו מעט דיוק בקוד, אך המהירות והחיסכון בעלויות הפכו זאת למשתלם.
עליכם גם להיזהר מהטיות (biases). GPT לומד תבניות מהאינטרנט. המשמעות היא שהוא עלול לחזור על סטריאוטיפים או על טעויות עובדתיות. הוא נשמע בטוח בעצמו גם כשהוא טועה.
בנינו צינור נתונים (data pipeline) כדי לתפוס את השגיאות הללו. השתמשנו במנוע חוקים כדי לסמן שפה מוטה. בתחילה, 4% מהסימונים שלנו היו שגויים. תיקנו זאת על ידי הוספת מודל וולידציה (validation) קטן. זה הביא את אחוז השגיאות למטה מ-1%.
עלות ואנרגיה הן גם מכשולים גדולים.
אימון מודלים גדולים עולה מיליוני דולרים. אנחנו משתמשים בקוונטיזציה (quantization) כדי להוריד עלויות. באמצעות שימוש ב-4-bit quantization, הפחתנו את העלות לכל טוקן מ-0.00015$ ל-0.00004$. עבור מוצר SaaS גדול, זה חוסך 3 מיליון דולר בשנה.
העתיד נע לעבר יעילות. במקום רק להפוך את המודלים לגדולים יותר, מפתחים הופכים אותם לחכמים וקטנים יותר. אנחנו זקוקים למודלים שהם מהירים, זולים וכנים לגבי מה שהם אינם יודעים.
השתמשו בכלים הללו בחוכמה. הבינו את המגבלות שלהם. בנו מעקות הגנה (guardrails) כדי לשמור עליהם מועילים.
Source: https://dev.to/lavkeshdwivedi/gpt-does-more-than-you-think-fll
Optional learning community: https://t.me/GyaanSetuAi