𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱 (டோக்கனைசேஷன்: அதன் பின்னணியில்)

நீங்கள் ஒரு சாட்போட்டை (chatbot) வரிசைப்படுத்துகிறீர்கள். ஆங்கிலக் கேள்விகள் 42 டோக்கன்களைப் பயன்படுத்துகின்றன. ஒரு ஸ்பானிஷ் பயனர் ஒரு கேள்வியைக் கேட்கும்போது அது 103 டோக்கன்களைப் பயன்படுத்துகிறது. திடீரென்று, உங்கள் API செலவுகள் 40% உயர்கின்றன.

டோக்கனைசேஷனை ஒரு கண்ணுக்குத் தெரியாத குழாய் அமைப்பு (plumbing) போல நீங்கள் கருதும் போது இது நிகழ்கிறது. ஒவ்வொரு பெரிய மொழி மாதிரியும் (Large Language Model) நான்கு துணைச் சொல் (subword) அல்காரிதம்களில் ஒன்றைப் பயன்படுத்துகிறது. உங்கள் தேர்வு சொல்லகராதியின் அளவு (vocabulary size), மொழியின் செயல்திறன் மற்றும் உங்கள் மாதாந்திரக் கட்டணத்தைத் தீர்மானிக்கிறது.

டோக்கனைசேஷன் மூன்று முக்கியமான விஷயங்களைக் கட்டுப்படுத்துகிறது:

நான்கு முக்கிய வகைகள் எவ்வாறு செயல்படுகின்றன என்பது இதோ:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

டெவலப்பர்களுக்கான முக்கியக் குறிப்புகள்:

இந்தத் கருவிகளைப் புரிந்துகொள்வது, நிதித் துறையினர் அதிர்ச்சியடைவதற்குப் பதிலாக, செலவு குறைந்த தயாரிப்புகளை நீங்கள் வெளியிட உதவும்.

ஆதாரம்: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi