Cách thức hoạt động của Transformers

📅4 hours ago⏱2 min read

Cách thức hoạt động của Transformers

Transformers đã thay đổi AI. Chúng không còn đọc văn bản theo kiểu từng từ một nữa.

Các mô hình cũ như RNN di chuyển theo từng bước. Transformers so sánh tất cả các từ trong một chuỗi cùng một lúc. Thiết kế này giúp các LLM hiện đại trở nên khả thi.

Một Transformer là một mạng thần kinh được xây dựng dựa trên cơ chế attention. Nó xem xét một chuỗi các token và học cách chúng liên kết với nhau. Điều này rất quan trọng vì ngôn ngữ phụ thuộc vào ngữ cảnh. Một từ chỉ có ý nghĩa thông qua mối quan hệ của nó với các từ khác.

Quy trình cốt lõi:

Các token được chuyển đổi thành embeddings
Thông tin vị trí (positional information) thêm vào thứ tự
Self-attention tính toán các mối quan hệ
Các mạng feed-forward xử lý dữ liệu
Đầu ra tạo ra các biểu diễn ngữ cảnh

Self-Attention cho phép một token đặt câu hỏi: Những token nào khác quan trọng đối với ý nghĩa của tôi?

Trong câu "The animal did not cross the street because it was tired," từ "it" ám chỉ con vật (the animal). Self-attention cho phép mô hình liên kết "it" với "animal" thay vì "street."

Cách thức Attention hoạt động: Mỗi token tạo ra ba vector:

Query: Những gì token này tìm kiếm
Key: Những gì mỗi token cung cấp
Value: Thông tin cần truy xuất

Multi-Head Attention chạy nhiều quy trình này cùng một lúc. Một head có thể theo dõi ngữ pháp. Một head khác có thể theo dõi ý nghĩa. Điều này giúp mô hình thông minh hơn.

Sự tiến hóa của kiến trúc: Transformer nguyên bản sử dụng cấu trúc Encoder-Decoder. Các LLM hiện đại như GPT hầu hết chỉ là decoder-only. Chúng dự đoán token tiếp theo, thêm nó vào chuỗi và lặp lại.

Các LLM hiện đại sử dụng một số nâng cấp để duy trì tốc độ và hiệu quả:

RoPE: Cải thiện cách mô hình hiểu thứ tự từ
RMSNorm: Đơn giản hóa việc chuẩn hóa (normalization)
GQA: Giảm chi phí bộ nhớ trong quá trình tạo (generation)
SwiGLU: Tăng cường các lớp thần kinh
MoE: Sử dụng các chuyên gia thưa (sparse experts) để mở rộng quy mô lớn hơn

Transformers hoạt động bằng cách chuyển đổi một chuỗi thành một tập hợp các mối quan hệ. Chúng tinh chỉnh các mối quan hệ này thông qua các khối xếp chồng lên nhau.

Nếu bạn muốn học điều này, hãy làm theo thứ tự sau:

Attention Mechanism
Self-Attention và QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache và Efficient Attention

Nguồn: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Cách thức hoạt động của Transformers

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲