טוקניזציה מתחת למכסה המנוע

אתם פורסים צ'אטבוט. שאילתות באנגלית משתמשות ב-42 טוקנים. משתמש דובר ספרדית שולח שאילתה אחת והיא משתמשת ב-103 טוקנים. פתאום, עלויות ה-API שלכם קופצות ב-40%.

זה קורה כשמתייחסים לטוקניזציה כאל "צנרת" בלתי נראית. כל מודל שפה גדול (LLM) משתמש באחד מארבעת אלגוריתמי תתי-המילים (subword algorithms). הבחירה שלכם קובעת את גודל אוצר המילים, את היעילות הלשונית ואת החשבון החודשי שלכם.

טוקניזציה שולטת בשלושה דברים קריטיים:

כך עובדים ארבעת הסוגים העיקריים:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

תובנות מפתח למפתחים:

הבנת הכלים הללו עוזרת לך להוציא לשוק מוצרים חסכוניים במקום להפתיע את צוותי הכספים.

מקור: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi