টোকেনাইজেশন: পর্দার আড়ালে

আপনি একটি চ্যাটবট ডেপ্লয় করলেন। ইংরেজি কুয়েরিতে ৪২টি টোকেন ব্যবহৃত হয়। একজন স্প্যানিশ ব্যবহারকারী একটি কুয়েরি পাঠালেন এবং এতে ১০৩টি টোকেন ব্যবহৃত হলো। হঠাৎ করেই আপনার API খরচ ৪০% বেড়ে গেল।

এটি তখনই ঘটে যখন আপনি টোকেনাইজেশনকে একটি অদৃশ্য কারিগরি প্রক্রিয়া হিসেবে বিবেচনা করেন। প্রতিটি লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) চারটি সাবওয়ার্ড অ্যালগরিদমের একটি ব্যবহার করে। আপনার পছন্দ নির্ধারণ করে দেয় ভোকাবুলারি সাইজ, ভাষার দক্ষতা এবং আপনার মাসিক বিল।

টোকেনাইজেশন তিনটি গুরুত্বপূর্ণ বিষয় নিয়ন্ত্রণ করে:

নিচে চারটি প্রধান প্রকারের কার্যপদ্ধতি দেওয়া হলো:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

ডেভেলপারদের জন্য মূল বিষয়সমূহ:

এই টুলগুলো বোঝা আপনাকে হতবাক ফিন্যান্স টিমের পরিবর্তে সাশ্রয়ী পণ্য সরবরাহ করতে সাহায্য করে।

উৎস: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi