𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱

📅3 hours ago⏱2 min read

તમે એક ચેટબોટ તૈનાત કરો છો. અંગ્રેજી ક્વેરીઝ 42 ટોકન્સનો ઉપયોગ કરે છે. એક સ્પેનિશ વપરાશકર્તા એક ક્વેરી મોકલે છે અને તે 103 ટોકન્સનો ઉપયોગ કરે છે. અચાનક, તમારા API ખર્ચમાં 40% નો વધારો થાય છે.

આવું ત્યારે થાય છે જ્યારે તમે ટોકનાઇઝેશનને એક અદ્રશ્ય પ્લમ્બિંગ (invisible plumbing) તરીકે ગણો છો. દરેક લાર્જ લેંગ્વેજ મોડલ ચાર સબવર્ડ અલ્ગોરિધમ્સમાંથી એકનો ઉપયોગ કરે છે. તમારી પસંદગી શબ્દભંડોળનું કદ (vocabulary size), ભાષાની કાર્યક્ષમતા અને તમારા માસિક બિલને નક્કી કરે છે.

ટોકનાઇઝેશન ત્રણ મહત્વની બાબતોને નિયંત્રિત કરે છે:

ઇન્ફરન્સ કોસ્ટ (Inference cost). LLM APIs ટોકન મુજબ ચાર્જ કરે છે. નાનું શબ્દભંડોળ એક શબ્દને 8 ટોકન્સમાં વિભાજિત કરી શકે છે. મોટું શબ્દભંડોળ તેને 3 માં હેન્ડલ કરે છે. મોટા પાયે આ તફાવત ખરેખર પૈસાનો ખર્ચ વધારે છે.
શબ્દભંડોળનું કવરેજ (Vocabulary coverage). નબળું શબ્દભંડોળ લાંબી શ્રેણીઓ (sequences) બનાવે છે. આનાથી જનરેશન ધીમું થાય છે અને ખર્ચ વધે છે.
મોડલનું વર્તન (Model behavior). જો ટોકનાઇઝર "cowboy" ને ["cow", "boy"] માં વિભાજિત કરે છે, તો મોડલ અલગ રીતે શીખે છે, જો તે તેને ["c", "owb", "oy"] માં વિભાજિત કરે તેના કરતા.

અહીં ચાર મુખ્ય પ્રકારો કેવી રીતે કામ કરે છે તે છે:

BPE (Byte Pair Encoding)

કેવી રીતે કામ કરે છે: તે કેરેક્ટર્સથી શરૂ થાય છે. તે વારંવાર આવતા નજીકના જોડીઓને ગણે છે અને તેમને નવા ટોકન્સમાં ભેગા કરે છે. તે લક્ષ્ય કદ સુધી આ પ્રક્રિયાનું પુનરાવર્તન કરે છે.
ફાયદા: ઝડપી અને નિશ્ચિત (deterministic).
વપરાશકર્તાઓ: GPT-4o, Llama 3, Mistral.

WordPiece

કેવી રીતે કામ કરે છે: BPE જેવું જ છે પરંતુ તે કાચી આવૃત્તિ (raw frequency) ને બદલે સંભાવના (likelihood) નો ઉપયોગ કરે છે. તે એવા મર્જ પસંદ કરે છે જે ટ્રેનિંગ ડેટાની સંભાવનાને મહત્તમ બનાવે છે.
ફાયદા: વધુ ભાષાકીય રીતે અર્થપૂર્ણ ટોકન્સ બનાવે છે.
વપરાશકર્તાઓ: BERT, Google models.

SentencePiece

કેવી રીતે કામ કરે છે: તે ઇનપુટને કાચા Unicode bytes તરીકે ગણે છે. તેને સ્પેસ પર વિભાજિત કરવા જેવી પ્રી-ટોકનાઇઝેશન સ્ટેપની જરૂર પડતી નથી.
ફાયદા: બહુભાષી સપોર્ટ માટે શ્રેષ્ઠ છે કારણ કે તે ભાષા-તટસ્થ (language-agnostic) છે.
વપરાશકર્તાઓ: Llama 2, Llama 3, Gemma.

Unigram

કેવી રીતે કામ કરે છે: તે વિશાળ શબ્દભંડોળથી શરૂ થાય છે અને સંભાવના મોડલનો ઉપયોગ કરીને તેને ઘટાડે છે. તે શ્રેષ્ઠ સેગ્મેન્ટેશન પાથ પસંદ કરે છે.
ફાયદા: વધુ સુસંગત ટોકન-ટુ-મીનિંગ મેપિંગ.
વપરાશકર્તાઓ: T5, XLNet.

ડેવલપર્સ માટે મુખ્ય બાબતો:

તમારી ભાષાના મિશ્રણ પર ધ્યાન આપો. સ્પેસ પર આધાર રાખતા BPE મોડલ્સ જાપાનીઝ અથવા હિન્દી જેવી ભાષાઓ સાથે સંઘર્ષ કરે છે. વૈશ્વિક ઉત્પાદનો માટે SentencePiece નો ઉપયોગ કરો.
તમારા વર્ઝન ફિક્સ રાખો. cl100k_base થી o200k_base પર જવાથી તમારા ટોકન કાઉન્ટ બદલાઈ જાય છે. મૂલ્યાંકન (evaluations) માં તમે કયું એન્કોડિંગ વાપરો છો તેના પર હંમેશા નજર રાખો.
સાચું બેન્ચમાર્ક કરો. વિવિધ મોડલ ફેમિલી વચ્ચે ટોકન કાઉન્ટની સરખામણી કરશો નહીં. સચોટ રહેવા માટે હંમેશા કેરેક્ટર અથવા બાઇટ કાઉન્ટનો ઉપયોગ કરીને બેન્ચમાર્ક કરો.

આ સાધનોને સમજવાથી તમને આશ્ચર્યચકિત નાણાકીય ટીમોને બદલે ખર્ચ-કાર્યક્ષમ ઉત્પાદનો લોન્ચ કરવામાં મદદ મળે છે.

સ્ત્રોત: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

વૈકલ્પિક લર્નિંગ કમ્યુનિટી: https://t.me/GyaanSetuAi

𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱

Continue reading

AI ટૂલ્સ માટે બ્રાન્ડ વોઇસ ટ્રેનિંગ

𝗟𝗼𝘄𝗲𝗿 𝗔𝗚𝗘𝗡𝗧 𝗖𝗢𝗠𝗣𝗨𝗧𝗘 𝗖𝗢𝗦𝗧𝗦

𝗧𝗵𝗲 𝗧𝗿𝗮𝗽 𝗼𝗳 𝗔𝗜 𝗖𝗼𝗱𝗶𝗻𝗴

𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅