𝘁𝗼𝗸𝗲𝗻𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝘂𝗻𝗱𝗲𝗿 𝘁𝗵𝗲 𝗵𝗼𝗼𝗱

チャットボットをデプロイしたとしましょう。英語のクエリは42トークン。スペイン語のユーザーが1つのクエリを送信すると103トークン。突然、APIコストが40%跳ね上がります。

これは、トークナイゼーションを「目に見えない配管」のように、意識せずに扱ってしまうことで起こります。すべての大型言語モデル(LLM)は、4つのサブワード・アルゴリズムのいずれかを使用しています。その選択によって、語彙数、言語効率、そして月々の請求額が決まります。

トークナイゼーションは、以下の3つの重要な要素を制御します。

4つの主要なタイプの仕組みは以下の通りです。

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

開発者への重要なポイント:

これらのツールを理解しておくことで、財務チームを驚かせるような事態を避け、コスト効率の高い製品をリリースできるようになります。

出典: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

学習コミュニティ(任意参加): https://t.me/GyaanSetuAi