𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱

તમે એક ચેટબોટ તૈનાત કરો છો. અંગ્રેજી ક્વેરીઝ 42 ટોકન્સનો ઉપયોગ કરે છે. એક સ્પેનિશ વપરાશકર્તા એક ક્વેરી મોકલે છે અને તે 103 ટોકન્સનો ઉપયોગ કરે છે. અચાનક, તમારા API ખર્ચમાં 40% નો વધારો થાય છે.

આવું ત્યારે થાય છે જ્યારે તમે ટોકનાઇઝેશનને એક અદ્રશ્ય પ્લમ્બિંગ (invisible plumbing) તરીકે ગણો છો. દરેક લાર્જ લેંગ્વેજ મોડલ ચાર સબવર્ડ અલ્ગોરિધમ્સમાંથી એકનો ઉપયોગ કરે છે. તમારી પસંદગી શબ્દભંડોળનું કદ (vocabulary size), ભાષાની કાર્યક્ષમતા અને તમારા માસિક બિલને નક્કી કરે છે.

ટોકનાઇઝેશન ત્રણ મહત્વની બાબતોને નિયંત્રિત કરે છે:

અહીં ચાર મુખ્ય પ્રકારો કેવી રીતે કામ કરે છે તે છે:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

ડેવલપર્સ માટે મુખ્ય બાબતો:

આ સાધનોને સમજવાથી તમને આશ્ચર્યચકિત નાણાકીય ટીમોને બદલે ખર્ચ-કાર્યક્ષમ ઉત્પાદનો લોન્ચ કરવામાં મદદ મળે છે.

સ્ત્રોત: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

વૈકલ્પિક લર્નિંગ કમ્યુનિટી: https://t.me/GyaanSetuAi