टोकनायझेशनचे अंतर्गत कार्य

तुम्ही एक चॅटबॉट तैनात करता. इंग्रजी क्वेरीजसाठी ४२ टोकन्स वापरले जातात. स्पॅनिश वापरकर्ता एक क्वेरी पाठवतो आणि त्यासाठी १०३ टोकन्स वापरले जातात. अचानक, तुमचा API खर्च ४०% ने वाढतो.

जेव्हा तुम्ही टोकनायझेशनकडे एक अदृश्य प्लंबिंग (plumbing) म्हणून पाहता, तेव्हा असे घडते. प्रत्येक लार्ज लँग्वेज मॉडेल चार सबवर्ड अल्गोरिदमपैकी एक वापरते. तुमची निवड शब्दसंग्रहाचा आकार (vocabulary size), भाषेची कार्यक्षमता आणि तुमचा मासिक खर्च ठरवते.

टोकनायझेशन तीन महत्त्वाच्या गोष्टींवर नियंत्रण ठेवते:

चार मुख्य प्रकार खालीलप्रमाणे कार्य करतात:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

डेव्हलपर्ससाठी महत्त्वाचे मुद्दे:

ही साधने समजून घेतल्यामुळे आर्थिक विभागाला आश्चर्याचा धक्का बसण्याऐवजी, तुम्ही किफायतशीर उत्पादने लाँच करू शकता.

स्रोत: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

ऐच्छिक शिक्षण समुदाय: https://t.me/GyaanSetuAi