𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁
Xây dựng một Transformer là chưa đủ. Bạn có thể đổ cả internet vào đó và chi hàng triệu đô cho năng lực tính toán. Bạn vẫn sẽ nhận được một cỗ máy không thể trả lời một câu hỏi đơn giản.
Một mô hình thô chỉ là một kẻ bắt chước văn bản. Nó dự đoán từ tiếp theo dựa trên các khuôn mẫu. Nếu bạn hỏi "Làm thế nào để khởi động lại router?", nó có thể phản hồi bằng các câu hỏi khác như "Làm thế nào để đổi mật khẩu?". Nó không biết bạn đang cần giúp đỡ. Nó chỉ biết cách internet tiếp nối một câu văn.
Để biến bộ dự đoán này thành một chatbot, bạn cần ba giai đoạn huấn luyện.
Pretraining (Động cơ) Bạn cho mô hình xem hàng nghìn tỷ từ. Bạn ẩn từ cuối cùng và bắt nó đoán. Điều này xây dựng kiến thức. Nó học các sự thật, ngữ pháp và logic. Điều này hiệu quả vì dữ liệu tự gán nhãn. Quy mô giúp quá trình này trở nên có thể dự đoán được. Càng nhiều dữ liệu và năng lực tính toán, kết quả càng tốt hơn.
Instruction Tuning (Kịch bản) Mô hình cơ sở biết mọi thứ nhưng không có mục tiêu. Trong giai đoạn này, bạn cho nó xem vài nghìn ví dụ về một câu lệnh (prompt) đi kèm với một phản hồi tốt từ con người. Điều này không thêm kiến thức mới. Nó dạy mô hình một hành vi mới. Bạn đang đưa cho diễn viên một kịch bản. Nó học cách hành xử như một trợ lý hữu ích thay vì chỉ là một bộ hoàn thiện văn bản.
Preference Tuning (Phép tắc) Kịch bản có giới hạn. Bạn không thể viết quy tắc cho mọi tình huống. Trong giai đoạn này, bạn đưa cho mô hình hai câu trả lời khác nhau và để con người chọn câu tốt hơn. Mô hình học cách theo đuổi điểm số cao dựa trên thị hiếu của con người. Điều này mang lại cho mô hình tông giọng, sự lịch sự và các giới hạn an toàn.
Tóm tắt đơn giản là:
- Pretraining xây dựng kiến thức.
- Instruction tuning giúp chọn ra người trợ lý giữa đám đông.
- Preference tuning thêm vào sự phán đoán và phép tắc.
Tính cách mà bạn thấy trong cửa sổ chat chỉ là một lớp mỏng phủ lên trên một bộ dự đoán từ thô. Chúng ta không cần một lý thuyết về trí thông minh để xây dựng điều này. Chúng ta chỉ cần một mục tiêu đơn giản, quy mô và hai vòng huấn luyện bổ trợ.
Optional learning community: https://t.me/GyaanSetuAi
