Cách thức hoạt động của Transformers
Transformers đã thay đổi AI. Chúng không còn đọc văn bản theo kiểu từng từ một nữa.
Các mô hình cũ như RNN di chuyển theo từng bước. Transformers so sánh tất cả các từ trong một chuỗi cùng một lúc. Thiết kế này giúp các LLM hiện đại trở nên khả thi.
Một Transformer là một mạng thần kinh được xây dựng dựa trên cơ chế attention. Nó xem xét một chuỗi các token và học cách chúng liên kết với nhau. Điều này rất quan trọng vì ngôn ngữ phụ thuộc vào ngữ cảnh. Một từ chỉ có ý nghĩa thông qua mối quan hệ của nó với các từ khác.
Quy trình cốt lõi:
- Các token được chuyển đổi thành embeddings
- Thông tin vị trí (positional information) thêm vào thứ tự
- Self-attention tính toán các mối quan hệ
- Các mạng feed-forward xử lý dữ liệu
- Đầu ra tạo ra các biểu diễn ngữ cảnh
Self-Attention cho phép một token đặt câu hỏi: Những token nào khác quan trọng đối với ý nghĩa của tôi?
Trong câu "The animal did not cross the street because it was tired," từ "it" ám chỉ con vật (the animal). Self-attention cho phép mô hình liên kết "it" với "animal" thay vì "street."
Cách thức Attention hoạt động: Mỗi token tạo ra ba vector:
- Query: Những gì token này tìm kiếm
- Key: Những gì mỗi token cung cấp
- Value: Thông tin cần truy xuất
Multi-Head Attention chạy nhiều quy trình này cùng một lúc. Một head có thể theo dõi ngữ pháp. Một head khác có thể theo dõi ý nghĩa. Điều này giúp mô hình thông minh hơn.
Sự tiến hóa của kiến trúc: Transformer nguyên bản sử dụng cấu trúc Encoder-Decoder. Các LLM hiện đại như GPT hầu hết chỉ là decoder-only. Chúng dự đoán token tiếp theo, thêm nó vào chuỗi và lặp lại.
Các LLM hiện đại sử dụng một số nâng cấp để duy trì tốc độ và hiệu quả:
- RoPE: Cải thiện cách mô hình hiểu thứ tự từ
- RMSNorm: Đơn giản hóa việc chuẩn hóa (normalization)
- GQA: Giảm chi phí bộ nhớ trong quá trình tạo (generation)
- SwiGLU: Tăng cường các lớp thần kinh
- MoE: Sử dụng các chuyên gia thưa (sparse experts) để mở rộng quy mô lớn hơn
Transformers hoạt động bằng cách chuyển đổi một chuỗi thành một tập hợp các mối quan hệ. Chúng tinh chỉnh các mối quan hệ này thông qua các khối xếp chồng lên nhau.
Nếu bạn muốn học điều này, hãy làm theo thứ tự sau:
- Attention Mechanism
- Self-Attention và QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache và Efficient Attention
Nguồn: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi