𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱
તમે એક ચેટબોટ તૈનાત કરો છો. અંગ્રેજી ક્વેરીઝ 42 ટોકન્સનો ઉપયોગ કરે છે. એક સ્પેનિશ વપરાશકર્તા એક ક્વેરી મોકલે છે અને તે 103 ટોકન્સનો ઉપયોગ કરે છે. અચાનક, તમારા API ખર્ચમાં 40% નો વધારો થાય છે.
આવું ત્યારે થાય છે જ્યારે તમે ટોકનાઇઝેશનને એક અદ્રશ્ય પ્લમ્બિંગ (invisible plumbing) તરીકે ગણો છો. દરેક લાર્જ લેંગ્વેજ મોડલ ચાર સબવર્ડ અલ્ગોરિધમ્સમાંથી એકનો ઉપયોગ કરે છે. તમારી પસંદગી શબ્દભંડોળનું કદ (vocabulary size), ભાષાની કાર્યક્ષમતા અને તમારા માસિક બિલને નક્કી કરે છે.
ટોકનાઇઝેશન ત્રણ મહત્વની બાબતોને નિયંત્રિત કરે છે:
- ઇન્ફરન્સ કોસ્ટ (Inference cost). LLM APIs ટોકન મુજબ ચાર્જ કરે છે. નાનું શબ્દભંડોળ એક શબ્દને 8 ટોકન્સમાં વિભાજિત કરી શકે છે. મોટું શબ્દભંડોળ તેને 3 માં હેન્ડલ કરે છે. મોટા પાયે આ તફાવત ખરેખર પૈસાનો ખર્ચ વધારે છે.
- શબ્દભંડોળનું કવરેજ (Vocabulary coverage). નબળું શબ્દભંડોળ લાંબી શ્રેણીઓ (sequences) બનાવે છે. આનાથી જનરેશન ધીમું થાય છે અને ખર્ચ વધે છે.
- મોડલનું વર્તન (Model behavior). જો ટોકનાઇઝર "cowboy" ને ["cow", "boy"] માં વિભાજિત કરે છે, તો મોડલ અલગ રીતે શીખે છે, જો તે તેને ["c", "owb", "oy"] માં વિભાજિત કરે તેના કરતા.
અહીં ચાર મુખ્ય પ્રકારો કેવી રીતે કામ કરે છે તે છે:
BPE (Byte Pair Encoding)
- કેવી રીતે કામ કરે છે: તે કેરેક્ટર્સથી શરૂ થાય છે. તે વારંવાર આવતા નજીકના જોડીઓને ગણે છે અને તેમને નવા ટોકન્સમાં ભેગા કરે છે. તે લક્ષ્ય કદ સુધી આ પ્રક્રિયાનું પુનરાવર્તન કરે છે.
- ફાયદા: ઝડપી અને નિશ્ચિત (deterministic).
- વપરાશકર્તાઓ: GPT-4o, Llama 3, Mistral.
WordPiece
- કેવી રીતે કામ કરે છે: BPE જેવું જ છે પરંતુ તે કાચી આવૃત્તિ (raw frequency) ને બદલે સંભાવના (likelihood) નો ઉપયોગ કરે છે. તે એવા મર્જ પસંદ કરે છે જે ટ્રેનિંગ ડેટાની સંભાવનાને મહત્તમ બનાવે છે.
- ફાયદા: વધુ ભાષાકીય રીતે અર્થપૂર્ણ ટોકન્સ બનાવે છે.
- વપરાશકર્તાઓ: BERT, Google models.
SentencePiece
- કેવી રીતે કામ કરે છે: તે ઇનપુટને કાચા Unicode bytes તરીકે ગણે છે. તેને સ્પેસ પર વિભાજિત કરવા જેવી પ્રી-ટોકનાઇઝેશન સ્ટેપની જરૂર પડતી નથી.
- ફાયદા: બહુભાષી સપોર્ટ માટે શ્રેષ્ઠ છે કારણ કે તે ભાષા-તટસ્થ (language-agnostic) છે.
- વપરાશકર્તાઓ: Llama 2, Llama 3, Gemma.
Unigram
- કેવી રીતે કામ કરે છે: તે વિશાળ શબ્દભંડોળથી શરૂ થાય છે અને સંભાવના મોડલનો ઉપયોગ કરીને તેને ઘટાડે છે. તે શ્રેષ્ઠ સેગ્મેન્ટેશન પાથ પસંદ કરે છે.
- ફાયદા: વધુ સુસંગત ટોકન-ટુ-મીનિંગ મેપિંગ.
- વપરાશકર્તાઓ: T5, XLNet.
ડેવલપર્સ માટે મુખ્ય બાબતો:
- તમારી ભાષાના મિશ્રણ પર ધ્યાન આપો. સ્પેસ પર આધાર રાખતા BPE મોડલ્સ જાપાનીઝ અથવા હિન્દી જેવી ભાષાઓ સાથે સંઘર્ષ કરે છે. વૈશ્વિક ઉત્પાદનો માટે SentencePiece નો ઉપયોગ કરો.
- તમારા વર્ઝન ફિક્સ રાખો. cl100k_base થી o200k_base પર જવાથી તમારા ટોકન કાઉન્ટ બદલાઈ જાય છે. મૂલ્યાંકન (evaluations) માં તમે કયું એન્કોડિંગ વાપરો છો તેના પર હંમેશા નજર રાખો.
- સાચું બેન્ચમાર્ક કરો. વિવિધ મોડલ ફેમિલી વચ્ચે ટોકન કાઉન્ટની સરખામણી કરશો નહીં. સચોટ રહેવા માટે હંમેશા કેરેક્ટર અથવા બાઇટ કાઉન્ટનો ઉપયોગ કરીને બેન્ચમાર્ક કરો.
આ સાધનોને સમજવાથી તમને આશ્ચર્યચકિત નાણાકીય ટીમોને બદલે ખર્ચ-કાર્યક્ષમ ઉત્પાદનો લોન્ચ કરવામાં મદદ મળે છે.
વૈકલ્પિક લર્નિંગ કમ્યુનિટી: https://t.me/GyaanSetuAi