Ba Ý Tưởng Giúp AI Hiện Đại Trở Nên Khả Thi
AI hiện đại trông giống như phép thuật. Bạn gõ một câu và máy tính viết câu trả lời. Cảm giác thật kỳ lạ. Nhưng thực tế không phải vậy.
Kiến trúc đằng sau hầu hết mọi mô hình đều dựa trên những giải pháp kỹ thuật đơn thuần. Những giải pháp này đã giải quyết các vấn đề cụ thể. Không có "công thức bí mật" nào cả. Chỉ có ba bản vá then chốt.
- Skip Connections
Khoảng năm 2014, các kỹ sư đã cố gắng làm cho mạng thần kinh sâu hơn. Họ nghĩ rằng nhiều lớp hơn sẽ mang lại kết quả tốt hơn. Họ đã lầm. Các mạng sâu hơn thường hoạt động kém hơn vì tín hiệu lỗi không thể truyền đến các lớp đầu tiên. Tín hiệu sẽ bị thu nhỏ về không hoặc bùng nổ.
Skip connections đã khắc phục điều này. Thay vì bắt buộc mọi lớp phải thay đổi đầu vào, bạn cho phép đầu vào "nhảy" qua các lớp. Bạn cộng đầu vào ban đầu ngược trở lại đầu ra.
Điều này mang lại hai lợi ích:
- Nó giúp việc "không làm gì cả" trở nên dễ dàng. Nếu một lớp không đóng góp thêm giá trị, đầu vào sẽ được truyền qua mà không bị thay đổi.
- Nó tạo ra một đường dẫn trực tiếp cho tín hiệu lỗi. Tín hiệu có một "làn đường ưu tiên" để đi đến các lớp đầu tiên.
- Normalization
Khi dữ liệu đi qua một mạng lưới, quy mô của các con số sẽ bị trôi dạt. Một lớp có thể tạo ra 0,01 trong khi lớp tiếp theo tạo ra 5000. Khi các con số đạt đến những mức cực đoan này, quá trình học sẽ dừng lại.
Normalization giúp cân bằng quy mô. Nó đưa các con số về quanh mức không và giữ chúng ở một quy mô nhất quán. Điều này cho phép bạn sử dụng tốc độ học (learning rates) cao hơn và huấn luyện nhanh hơn nhiều. Nó giúp các phép toán hoạt động ổn định.
- Attention
Các mô hình cũ đọc văn bản từng từ một. Cách này vừa chậm vừa hay quên. Để kết nối từ đầu tiên với từ cuối cùng, thông tin phải đi qua mọi từ ở giữa. Đến cuối cùng, phần đầu đã bị mất dấu.
Attention thay đổi điều này. Thay vì đọc theo thứ tự, mỗi từ sẽ nhìn vào tất cả các từ khác trong câu cùng một lúc. Từ "it" có thể nhìn trực tiếp vào danh từ mà nó thay thế, bất kể khoảng cách xa bao nhiêu.
Vì không có gì phụ thuộc vào một thứ tự cụ thể, bạn có thể xử lý mọi thứ cùng một lúc. Điều này giúp việc huấn luyện trở nên nhanh chóng và hiệu quả.
Transformer là kết quả của việc xếp chồng ba ý tưởng này lên nhau. Nó sử dụng các khối attention được bao bọc trong các skip connections với normalization ở giữa.
AI không phải là ma thuật. Đó là kết quả của việc con người nhận thấy điều gì đó bị lỗi và sửa chữa nó bằng toán học đơn giản.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi