Ba Ý Tưởng Đã Giúp AI Trở Nên Khả Thi

AI hiện đại trông giống như phép thuật. Bạn gõ một câu và máy tính viết lại. Nó mang lại cảm giác thật kỳ lạ.

Nhưng không phải vậy.

AI hiện đại tồn tại được là nhờ các kỹ sư đã giải quyết được những vấn đề cụ thể. Họ tìm ra các mạng lưới bị lỗi và sửa chữa chúng.

Dưới đây là ba giải pháp kỹ thuật đã xây dựng nên Transformer.

  1. Skip Connections

Vào năm 2014, các nhà nghiên cứu đã cố gắng làm cho mạng thần kinh sâu hơn. Họ nghĩ rằng nhiều lớp hơn sẽ mang lại kết quả tốt hơn. Nhưng điều đó đã thất bại. Các mạng càng sâu thực tế lại hoạt động càng kém.

Tín hiệu lỗi được sử dụng để huấn luyện mạng sẽ bị thu hẹp về không hoặc bùng nổ khi truyền qua nhiều lớp. Các lớp đầu tiên không nhận được bất kỳ phản hồi hữu ích nào.

Giải pháp rất đơn giản. Thay vì bắt buộc mọi lớp phải thay đổi đầu vào, hãy để đầu vào "nhảy" qua các lớp.

Trong một khối ResNet, bạn cộng đầu vào ban đầu trở lại đầu ra. Điều này tạo ra một đường dẫn trực tiếp để tín hiệu truyền đi. Việc thêm nhiều lớp hơn không còn làm hỏng hệ thống nữa. Nếu một lớp không hữu ích, nó chỉ đơn giản là truyền đầu vào qua mà không thay đổi gì.

  1. Normalization

Khi dữ liệu di chuyển qua một mạng lưới, các con số sẽ bị trôi (drift). Một lớp có thể xuất ra 0.01 trong khi lớp tiếp theo lại xuất ra 5000. Khi các con số đạt đến mức cực đoan này, quá trình học sẽ dừng lại.

Normalization khắc phục điều này bằng cách cân bằng lại quy mô. Nó đưa các con số về lại quanh mức 0 và điều chỉnh chúng về một phạm vi nhất quán.

Điều này giữ cho các phép toán ổn định. Nó cho phép bạn sử dụng tốc độ học (learning rates) cao hơn và huấn luyện nhanh hơn nhiều. Đây là một giải pháp thực tế giúp tiết kiệm vô số giờ gỡ lỗi (debugging).

  1. Attention

Các mô hình cũ đọc văn bản theo từng từ một. Điều này rất chậm vì bạn không thể xử lý các từ song song. Nó cũng hay "quên" vì mô hình sẽ mất dấu phần đầu của câu khi đã đọc đến cuối câu.

Attention thay đổi điều này. Thay vì đọc theo thứ tự, mỗi từ sẽ nhìn vào tất cả các từ khác trong câu cùng một lúc.

Từ "it" có thể liên kết trực tiếp với danh từ của nó, bất kể nó nằm cách xa bao nhiêu. Vì các từ không phụ thuộc vào một trình tự, bạn có thể tính toán mọi thứ cùng một lúc bằng GPU.

Transformer kết hợp cả ba yếu tố này. Nó sử dụng các khối attention được bao bọc trong các skip connections với normalization ở giữa.

AI không đòi hỏi một sự đột phá trong việc thấu hiểu trí thông minh. Nó đòi hỏi ba giải pháp thông minh cho các hệ thống bị lỗi.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi