𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱

📅3 hours ago⏱2 min read

మీరు ఒక చాట్‌బాట్‌ను డెవలప్ చేస్తారు. ఇంగ్లీష్ క్వెరీలకు 42 టోకెన్లు వాడతారు. ఒక స్పానిష్ యూజర్ ఒక క్వెరీ పంపితే అది 103 టోకెన్లను ఉపయోగిస్తుంది. అకస్మాత్తుగా, మీ API ఖర్చులు 40% పెరుగుతాయి.

టోకనైజేషన్‌ను కేవలం ఒక కనిపించని ప్రక్రియగా (invisible plumbing) భావించినప్పుడు ఇలా జరుగుతుంది. ప్రతి లార్జ్ లాంగ్వేజ్ మోడల్ (LLM) నాలుగు సబ్‌వర్డ్ అల్గారిథమ్స్‌లో ఒకదానిని ఉపయోగిస్తుంది. మీ ఎంపిక వొకాబులరీ సైజు, భాషా సామర్థ్యం మరియు మీ నెలవారీ బిల్లును నిర్ణయిస్తుంది.

టోకనైజేషన్ మూడు కీలక అంశాలను నియంత్రిస్తుంది:

ఇన్‌ఫరెన్స్ ఖర్చు (Inference cost). LLM APIలు టోకెన్ల ఆధారంగా ఛార్జ్ చేస్తాయి. చిన్న వొకాబులరీ ఒక పదాన్ని 8 టోకెన్లుగా విడగొట్టవచ్చు. పెద్ద వొకాబులరీ దానిని 3 టోకెన్లలోనే పూర్తి చేయగలదు. ఈ తేడా భారీ స్థాయిలో వాడినప్పుడు నిజమైన డబ్బు ఖర్చును పెంచుతుంది.
వొకాబులరీ కవరేజ్ (Vocabulary coverage). తక్కువ వొకాబులరీ ఉన్నప్పుడు సీక్వెన్స్‌లు పొడవుగా మారుతాయి. దీనివల్ల జనరేషన్ నెమ్మదిస్తుంది మరియు ఖర్చులు పెరుగుతాయి.
మోడల్ ప్రవర్తన (Model behavior). ఒక టోకనైజర్ "cowboy" అనే పదాన్ని ["cow", "boy"] గా విడగొడితే, ["c", "owb", "oy"] గా విడగొట్టిన దానికంటే మోడల్ భిన్నంగా నేర్చుకుంటుంది.

ఈ నాలుగు ప్రధాన రకాలు ఎలా పనిచేస్తాయో ఇక్కడ చూడండి:

BPE (Byte Pair Encoding)

ఇది ఎలా పనిచేస్తుంది: ఇది క్యారెక్టర్లతో మొదలవుతుంది. తరచుగా వచ్చే పక్కపక్కన ఉన్న జంటలను (adjacent pairs) లెక్కించి, వాటిని కొత్త టోకెన్లుగా విలీనం చేస్తుంది. లక్షిత పరిమాణం (target size) వచ్చే వరకు దీనిని పునరావృతం చేస్తుంది.
లాభాలు: వేగవంతమైనది మరియు డెటెర్మినಿಸ್ಟిక్ (deterministic).
వినియోగదారులు: GPT-4o, Llama 3, Mistral.

WordPiece

ఇది ఎలా పనిచేస్తుంది: BPE లాంటిదే కానీ, ఇది ఫ్రీక్వెన్సీకి బదులుగా లైక్లీహుడ్ (likelihood) ఉపయోగిస్తుంది. ట్రైనింగ్ డేటా యొక్క సంభావ్యతను (probability) గరిష్టీకరించేలా ఇది విలీనాలను ఎంచుకుంటుంది.
లాభాలు: భాషా పరంగా మరింత అర్థవంతమైన టోకెన్లను సృష్టిస్తుంది.
వినియోగదారులు: BERT, Google models.

SentencePiece

ఇది ఎలా పనిచేస్తుంది: ఇది ఇన్‌పుట్‌ను రా (raw) Unicode బైట్లుగా పరిగణిస్తుంది. స్పేస్‌ల ఆధారంగా విడగొట్టడం వంటి ప్రీ-టోకనైజేషన్ దశ దీనికి అవసరం లేదు.
లాభాలు: ఇది లాంగ్వేజ్-అగ్నోస్టిక్ (language-agnostic) కాబట్టి బహుభాషా మద్దతుకు (multilingual support) ఉత్తమమైనది.
వినియోగదారులు: Llama 2, Llama 3, Gemma.

Unigram

ఇది ఎలా పనిచేస్తుంది: ఇది ఒక భారీ వొకాబులరీతో మొదలై, ప్రాబబిలిస్టిక్ మోడల్ ఉపయోగించి దానిని క్రమంగా తగ్గిస్తుంది. ఇది ఉత్తమమైన సెగ్మెంటేషన్ మార్గాన్ని ఎంచుకుంటుంది.
లాభాలు: టోకెన్-టు-మీనింగ్ మ్యాపింగ్ మరింత స్థిరంగా ఉంటుంది.
వినియోగదారులు: T5, XLNet.

డెవలపర్ల కోసం ముఖ్యమైన అంశాలు:

మీ భాషా మిశ్రమాన్ని గమనించండి. స్పేస్‌లపై ఆధారపడే BPE మోడల్స్ జపనీస్ లేదా హిందీ వంటి భాషలతో పోరాడుతాయి. గ్లోబల్ ప్రొడక్ట్స్ కోసం SentencePiece ఉపయోగించండి.
మీ వెర్షన్లను ఫిక్స్ చేయండి (Pin your versions). cl100k_base నుండి o200k_base కి మారడం వల్ల మీ టోకెన్ కౌంట్లు మారుతాయి. ఎవాల్యుయేషన్స్ చేసేటప్పుడు మీరు ఏ ఎన్‌కోడింగ్‌ను ఉపయోగిస్తున్నారో ఎల్లప్పుడూ ట్రాక్ చేయండి.
సరిగ్గా బెంచ్‌మార్క్ చేయండి. వేర్వేరు మోడల్ ఫ్యామిలీల మధ్య టోకెన్ కౌంట్లను పోల్చకండి. ఖచ్చితత్వం కోసం ఎల్లప్పుడూ క్యారెక్టర్ లేదా బైట్ కౌంట్‌లను ఉపయోగించి బెంచ్‌మార్క్ చేయండి.

ఈ సాధనాలను అర్థం చేసుకోవడం వల్ల, ఫైనాన్స్ టీమ్స్ ఆశ్చర్యపోయేలా కాకుండా, మీరు తక్కువ ఖర్చుతో కూడిన ఉత్పత్తులను విడుదల చేయవచ్చు.

మూలం: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗧𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗨𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗛𝗼𝗼𝗱

Continue reading

AI టూల్స్ కోసం బ్రాండ్ వాయిస్ శిక్షణ

ఏజెంట్ కంప్యూట్ ఖర్చులను తగ్గించడం

𝗧𝗵𝗲 𝗧𝗿𝗮𝗽 𝗼𝗳 𝗔𝗜 𝗖𝗼𝗱𝗶𝗻𝗴

𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

MCP కాంటెక్స్ట్ టాక్స్