GPT không hề biết ý nghĩa của từ ngữ

GPT không hiểu ngôn ngữ. Nó hiểu các con số.

Hầu hết mọi người giải thích cơ chế attention bằng các phép ẩn dụ. Họ sử dụng các mũi tên hoặc các kết nối phát sáng. Nhưng thực tế không phải như vậy.

Tôi đã tự tay tính toán các công thức toán học. Tôi đã sử dụng các phép nhân ma trận thực tế. Đây mới là thực tế về cách một transformer hoạt động.

Quá trình bắt đầu với embeddings. Mỗi từ được gán một tọa độ ngẫu nhiên. Ví dụ, từ "love" có thể bắt đầu tại [0.10, 0.30]. Ban đầu, những con số này chẳng có ý nghĩa gì cả.

Sau đó, cơ chế attention diễn ra.

Hãy lấy ví dụ câu: "The dog chased the cat because it was fast."

Mô hình phải quyết định xem "it" ám chỉ con chó hay con mèo. Nó không tuân theo bất kỳ quy tắc ngữ pháp nào. Nó chỉ nhìn vào các từ trước đó và gán một mức điểm. Nó tự hỏi: "Tôi nên chú ý đến bạn bao nhiêu vào lúc này?"

Điều này tạo ra một bảng trọng số.

Đối với chuỗi [I, love, pizza]:

  • "love" có thể dành 51% sự chú ý cho "I" và 49% cho chính nó.
  • "pizza" có thể nhìn thấy toàn bộ bức tranh. Nó phân bổ sự chú ý lên cả ba từ.

Đây không phải là một phép ẩn dụ. Từ "love" bắt đầu là một vector. Sau khi qua cơ chế attention, nó trở thành một vector mới. Nó thay đổi vị trí vật lý trong không gian. Nó hấp thụ một phần vector từ "I".

Từ "love" trong ngữ cảnh của "I" là một điểm toán học khác với từ "love" khi đứng một mình. Ngữ cảnh thực chất chỉ là toán học đang hòa trộn các vector.

Làm thế nào để nó học được? Thông qua những sự dịch chuyển cực nhỏ.

Khi mô hình dự đoán sai, backpropagation sẽ điều chỉnh các trọng số. Những thay đổi này rất nhỏ. Một trọng số có thể chuyển từ 0.400 sang 0.397.

Một thay đổi nhỏ chỉ 0.009 có thể đảo ngược dự đoán từ sai thành đúng. GPT-3 đã thực hiện việc này 300 tỷ lần.

Điều này tạo ra khả năng tổng quát hóa zero-shot. Mô hình học được rằng "You" và "I" tương đồng về mặt toán học. Nó dự đoán từ "love" sau "You" ngay cả khi nó chưa từng thấy cặp từ cụ thể đó. Nó làm được điều này nhờ vào sự gần gũi về mặt hình học.

Mô hình không bao giờ học một quy tắc. Nó học một hướng.

Mỗi trọng số là một kim la bàn nhỏ. Quá trình huấn luyện định hướng những chiếc kim này để hình học trở nên hữu dụng. Không có cuốn sách ngữ pháp nào cả. Chỉ có toán học mà thôi.

Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optional learning community: https://t.me/GyaanSetuAi