ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਦੀ ਅੰਦਰੂਨੀ ਕਾਰਜਪ੍ਰਣਾਲੀ

ਤੁਸੀਂ ਇੱਕ ਚੈਟਬੋਟ ਤੈਅ (deploy) ਕਰਦੇ ਹੋ। ਅੰਗਰੇਜ਼ੀ ਪ੍ਰਸ਼ਨਾਂ ਲਈ 42 ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਹੁੰਦੀ ਹੈ। ਇੱਕ ਸਪੈਨਿਸ਼ ਉਪਭੋਗਤਾ ਇੱਕ ਪ੍ਰਸ਼ਨ ਭੇਜਦਾ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ 103 ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਹੁੰਦੀ ਹੈ। ਅਚਾਨਕ, ਤੁਹਾਡੇ API ਦੀ ਲਾਗਤ 40% ਵਧ ਜਾਂਦੀ ਹੈ।

ਇਹ ਉਦੋਂ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਇੱਕ ਅਦਿੱਖ ਪਾਈਪਲਾਈਨ ਵਾਂਗ ਸਮਝਦੇ ਹੋ। ਹਰ ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ (Large Language Model) ਚਾਰ ਵਿੱਚੋਂ ਇੱਕ ਸਬਵਰਡ (subword) ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਤੁਹਾਡੀ ਚੋਣ ਸ਼ਬਦਾਵਲੀ ਦਾ ਆਕਾਰ, ਭਾਸ਼ਾ ਦੀ ਕੁਸ਼ਲਤਾ ਅਤੇ ਤੁਹਾਡੇ ਮਹੀਨਾਵਾਰ ਬਿੱਲ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ।

ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਤਿੰਨ ਮਹੱਤਵਪੂਰਨ ਚੀਜ਼ਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਦੀ ਹੈ:

ਇੱਥੇ ਚਾਰ ਮੁੱਖ ਕਿਸਮਾਂ ਦੇ ਕੰਮ ਕਰਨ ਦਾ ਤਰੀਕਾ ਦਿੱਤਾ ਗਿਆ ਹੈ:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

ਡਿਵੈਲਪਰਾਂ ਲਈ ਮੁੱਖ ਗੱਲਾਂ:

ਇਹਨਾਂ ਸਾਧਨਾਂ ਨੂੰ ਸਮਝਣਾ ਤੁਹਾਨੂੰ ਵਿੱਤ ਟੀਮਾਂ ਨੂੰ ਹੈਰਾਨ ਕਰਨ ਦੀ ਬਜਾਏ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਉਤਪਾਦ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।

ਸਰੋਤ: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi