𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱
మీరు ఒక చాట్బాట్ను డెవలప్ చేస్తారు. ఇంగ్లీష్ క్వెరీలకు 42 టోకెన్లు వాడతారు. ఒక స్పానిష్ యూజర్ ఒక క్వెరీ పంపితే అది 103 టోకెన్లను ఉపయోగిస్తుంది. అకస్మాత్తుగా, మీ API ఖర్చులు 40% పెరుగుతాయి.
టోకనైజేషన్ను కేవలం ఒక కనిపించని ప్రక్రియగా (invisible plumbing) భావించినప్పుడు ఇలా జరుగుతుంది. ప్రతి లార్జ్ లాంగ్వేజ్ మోడల్ (LLM) నాలుగు సబ్వర్డ్ అల్గారిథమ్స్లో ఒకదానిని ఉపయోగిస్తుంది. మీ ఎంపిక వొకాబులరీ సైజు, భాషా సామర్థ్యం మరియు మీ నెలవారీ బిల్లును నిర్ణయిస్తుంది.
టోకనైజేషన్ మూడు కీలక అంశాలను నియంత్రిస్తుంది:
- ఇన్ఫరెన్స్ ఖర్చు (Inference cost). LLM APIలు టోకెన్ల ఆధారంగా ఛార్జ్ చేస్తాయి. చిన్న వొకాబులరీ ఒక పదాన్ని 8 టోకెన్లుగా విడగొట్టవచ్చు. పెద్ద వొకాబులరీ దానిని 3 టోకెన్లలోనే పూర్తి చేయగలదు. ఈ తేడా భారీ స్థాయిలో వాడినప్పుడు నిజమైన డబ్బు ఖర్చును పెంచుతుంది.
- వొకాబులరీ కవరేజ్ (Vocabulary coverage). తక్కువ వొకాబులరీ ఉన్నప్పుడు సీక్వెన్స్లు పొడవుగా మారుతాయి. దీనివల్ల జనరేషన్ నెమ్మదిస్తుంది మరియు ఖర్చులు పెరుగుతాయి.
- మోడల్ ప్రవర్తన (Model behavior). ఒక టోకనైజర్ "cowboy" అనే పదాన్ని ["cow", "boy"] గా విడగొడితే, ["c", "owb", "oy"] గా విడగొట్టిన దానికంటే మోడల్ భిన్నంగా నేర్చుకుంటుంది.
ఈ నాలుగు ప్రధాన రకాలు ఎలా పనిచేస్తాయో ఇక్కడ చూడండి:
BPE (Byte Pair Encoding)
- ఇది ఎలా పనిచేస్తుంది: ఇది క్యారెక్టర్లతో మొదలవుతుంది. తరచుగా వచ్చే పక్కపక్కన ఉన్న జంటలను (adjacent pairs) లెక్కించి, వాటిని కొత్త టోకెన్లుగా విలీనం చేస్తుంది. లక్షిత పరిమాణం (target size) వచ్చే వరకు దీనిని పునరావృతం చేస్తుంది.
- లాభాలు: వేగవంతమైనది మరియు డెటెర్మినಿಸ್ಟిక్ (deterministic).
- వినియోగదారులు: GPT-4o, Llama 3, Mistral.
WordPiece
- ఇది ఎలా పనిచేస్తుంది: BPE లాంటిదే కానీ, ఇది ఫ్రీక్వెన్సీకి బదులుగా లైక్లీహుడ్ (likelihood) ఉపయోగిస్తుంది. ట్రైనింగ్ డేటా యొక్క సంభావ్యతను (probability) గరిష్టీకరించేలా ఇది విలీనాలను ఎంచుకుంటుంది.
- లాభాలు: భాషా పరంగా మరింత అర్థవంతమైన టోకెన్లను సృష్టిస్తుంది.
- వినియోగదారులు: BERT, Google models.
SentencePiece
- ఇది ఎలా పనిచేస్తుంది: ఇది ఇన్పుట్ను రా (raw) Unicode బైట్లుగా పరిగణిస్తుంది. స్పేస్ల ఆధారంగా విడగొట్టడం వంటి ప్రీ-టోకనైజేషన్ దశ దీనికి అవసరం లేదు.
- లాభాలు: ఇది లాంగ్వేజ్-అగ్నోస్టిక్ (language-agnostic) కాబట్టి బహుభాషా మద్దతుకు (multilingual support) ఉత్తమమైనది.
- వినియోగదారులు: Llama 2, Llama 3, Gemma.
Unigram
- ఇది ఎలా పనిచేస్తుంది: ఇది ఒక భారీ వొకాబులరీతో మొదలై, ప్రాబబిలిస్టిక్ మోడల్ ఉపయోగించి దానిని క్రమంగా తగ్గిస్తుంది. ఇది ఉత్తమమైన సెగ్మెంటేషన్ మార్గాన్ని ఎంచుకుంటుంది.
- లాభాలు: టోకెన్-టు-మీనింగ్ మ్యాపింగ్ మరింత స్థిరంగా ఉంటుంది.
- వినియోగదారులు: T5, XLNet.
డెవలపర్ల కోసం ముఖ్యమైన అంశాలు:
- మీ భాషా మిశ్రమాన్ని గమనించండి. స్పేస్లపై ఆధారపడే BPE మోడల్స్ జపనీస్ లేదా హిందీ వంటి భాషలతో పోరాడుతాయి. గ్లోబల్ ప్రొడక్ట్స్ కోసం SentencePiece ఉపయోగించండి.
- మీ వెర్షన్లను ఫిక్స్ చేయండి (Pin your versions). cl100k_base నుండి o200k_base కి మారడం వల్ల మీ టోకెన్ కౌంట్లు మారుతాయి. ఎవాల్యుయేషన్స్ చేసేటప్పుడు మీరు ఏ ఎన్కోడింగ్ను ఉపయోగిస్తున్నారో ఎల్లప్పుడూ ట్రాక్ చేయండి.
- సరిగ్గా బెంచ్మార్క్ చేయండి. వేర్వేరు మోడల్ ఫ్యామిలీల మధ్య టోకెన్ కౌంట్లను పోల్చకండి. ఖచ్చితత్వం కోసం ఎల్లప్పుడూ క్యారెక్టర్ లేదా బైట్ కౌంట్లను ఉపయోగించి బెంచ్మార్క్ చేయండి.
ఈ సాధనాలను అర్థం చేసుకోవడం వల్ల, ఫైనాన్స్ టీమ్స్ ఆశ్చర్యపోయేలా కాకుండా, మీరు తక్కువ ఖర్చుతో కూడిన ఉత్పత్తులను విడుదల చేయవచ్చు.
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi