Cách thức hoạt động của Transformers

Transformers đã thay đổi AI. Chúng không còn đọc văn bản theo kiểu từng từ một nữa.

Các mô hình cũ như RNN di chuyển theo từng bước. Transformers so sánh tất cả các từ trong một chuỗi cùng một lúc. Thiết kế này giúp các LLM hiện đại trở nên khả thi.

Một Transformer là một mạng thần kinh được xây dựng dựa trên cơ chế attention. Nó xem xét một chuỗi các token và học cách chúng liên kết với nhau. Điều này rất quan trọng vì ngôn ngữ phụ thuộc vào ngữ cảnh. Một từ chỉ có ý nghĩa thông qua mối quan hệ của nó với các từ khác.

Quy trình cốt lõi:

Self-Attention cho phép một token đặt câu hỏi: Những token nào khác quan trọng đối với ý nghĩa của tôi?

Trong câu "The animal did not cross the street because it was tired," từ "it" ám chỉ con vật (the animal). Self-attention cho phép mô hình liên kết "it" với "animal" thay vì "street."

Cách thức Attention hoạt động: Mỗi token tạo ra ba vector:

Multi-Head Attention chạy nhiều quy trình này cùng một lúc. Một head có thể theo dõi ngữ pháp. Một head khác có thể theo dõi ý nghĩa. Điều này giúp mô hình thông minh hơn.

Sự tiến hóa của kiến trúc: Transformer nguyên bản sử dụng cấu trúc Encoder-Decoder. Các LLM hiện đại như GPT hầu hết chỉ là decoder-only. Chúng dự đoán token tiếp theo, thêm nó vào chuỗi và lặp lại.

Các LLM hiện đại sử dụng một số nâng cấp để duy trì tốc độ và hiệu quả:

Transformers hoạt động bằng cách chuyển đổi một chuỗi thành một tập hợp các mối quan hệ. Chúng tinh chỉnh các mối quan hệ này thông qua các khối xếp chồng lên nhau.

Nếu bạn muốn học điều này, hãy làm theo thứ tự sau:

  1. Attention Mechanism
  2. Self-Attention và QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache và Efficient Attention

Nguồn: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi