𝗧𝗶𝗴𝗮 𝗧𝗮𝗵𝗮𝗽 𝗣𝗲𝗹𝗮𝘁𝗶𝗵𝗮𝗻 𝗠𝗲𝗺𝗯𝘂𝗮𝘁 𝗦𝗲𝗯𝘂𝗮𝗵 𝗖𝗵𝗮𝘁𝗯𝗼𝘁
Membangun sebuah Transformer saja tidak cukup. Anda bisa memasukkan seluruh isi internet ke dalamnya dan menghabiskan jutaan dolar untuk komputasi. Anda tetap akan berakhir dengan mesin yang tidak bisa menjawab pertanyaan sederhana.
Model mentah hanyalah peniru teks. Ia memprediksi kata berikutnya berdasarkan pola. Jika Anda bertanya "Bagaimana cara mereset router saya?", ia mungkin merespons dengan pertanyaan lain seperti "Bagaimana cara mengubah kata sandi saya?". Ia tidak tahu bahwa Anda butuh bantuan. Ia hanya tahu bagaimana internet melanjutkan sebuah kalimat.
Untuk mengubah prediktor ini menjadi chatbot, Anda memerlukan tiga tahap pelatihan.
Pretraining (Mesinnya) Anda menunjukkan triliunan kata kepada model. Anda menyembunyikan kata terakhir dan memintanya menebak. Ini membangun pengetahuan. Ia mempelajari fakta, tata bahasa, dan logika. Ini berhasil karena datanya melabeli dirinya sendiri. Skala membuat hal ini dapat diprediksi. Lebih banyak data dan lebih banyak komputasi akan menghasilkan hasil yang lebih baik.
Instruction Tuning (Naskahnya) Model dasar mengetahui segalanya tetapi tidak memiliki tujuan. Dalam tahap ini, Anda menunjukkan beberapa ribu contoh prompt yang dipasangkan dengan respons manusia yang baik. Ini tidak menambah pengetahuan baru. Ini mengajarkan model perilaku baru. Anda sedang memberikan naskah kepada sang aktor. Ia belajar untuk bertindak seperti asisten yang membantu, bukan sekadar pelengkap teks.
Preference Tuning (Etikanya) Naskah memiliki keterbatasan. Anda tidak bisa menulis aturan untuk setiap situasi. Dalam tahap ini, Anda menunjukkan dua jawaban berbeda kepada model dan membiarkan manusia memilih yang lebih baik. Model belajar untuk mengejar skor tinggi berdasarkan selera manusia. Ini memberikan nada bicara, kesopanan, dan batasan keamanan pada model tersebut.
Ringkasannya sederhana:
- Pretraining membangun pengetahuan.
- Instruction tuning memilih asisten dari kerumunan.
- Preference tuning menambahkan penilaian dan etika.
Kepribadian yang Anda lihat di jendela obrolan hanyalah lapisan tipis di atas prediktor kata mentah. Kita tidak membutuhkan teori kecerdasan untuk membangun ini. Kita hanya membutuhkan tujuan yang sederhana, skala, dan dua tahap pembinaan.
Optional learning community: https://t.me/GyaanSetuAi
