Tìm hiểu về Tokenization

Bạn triển khai một chatbot. Các truy vấn tiếng Anh sử dụng 42 token. Một người dùng tiếng Tây Ban Nha gửi một truy vấn và nó sử dụng tới 103 token. Đột nhiên, chi phí API của bạn tăng vọt 40%.

Điều này xảy ra khi bạn coi tokenization chỉ là một phần hạ tầng vô hình. Mọi mô hình ngôn ngữ lớn đều sử dụng một trong bốn thuật toán subword (mã hóa dưới từ). Lựa chọn của bạn sẽ quyết định kích thước từ vựng, hiệu quả ngôn ngữ và hóa đơn hàng tháng của bạn.

Tokenization kiểm soát ba yếu tố quan trọng:

Dưới đây là cách bốn loại chính hoạt động:

BPE (Byte Pair Encoding)

WordPiece

SentencePiece

Unigram

Những lưu ý quan trọng dành cho nhà phát triển:

Hiểu rõ các công cụ này giúp bạn ra mắt các sản phẩm tiết kiệm chi phí thay vì khiến các đội ngũ tài chính phải ngỡ ngàng.

Nguồn: https://dev.to/tech_nuggets/tokenization-under-the-hood-bpe-wordpiece-sentencepiece-and-unigram-compared-4ca5

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi