Dropout คือความก้าวหน้าครั้งสำคัญในปี 2014 แต่ LLM สมัยใหม่ก้าวข้ามมันไปแล้ว

ในปี 2014 นักวิจัยได้นำเสนอ dropout ซึ่งทำงานโดยการสุ่มปิดการทำงานของนิวรอน (neurons) ในระหว่างการฝึกฝน วิธีนี้ช่วยป้องกันไม่ให้เครือข่ายจดจำข้อมูล (memorizing data) และบังคับให้โมเดลเรียนรู้รูปแบบที่ดีขึ้น

บทเรียนส่วนใหญ่ยังคงสอนเรื่อง dropout แต่โมเดลภาษาที่ใหญ่ที่สุดในปัจจุบันกลับไม่ได้ใช้งานมัน

ทำไมอุตสาหกรรมถึงก้าวข้ามมันไป?

วิธีการฝึกฝนโมเดลอย่าง LLaMA และ GPT-3 นั้นแตกต่างออกไป โมเดลเหล่านี้ใช้การทำ single-epoch pretraining ซึ่งจะเห็นข้อมูลแต่ละชิ้นเพียงครั้งเดียวเท่านั้น เมื่อโมเดลเห็นข้อมูลระดับล้านล้านโทเคนเพียงแค่ครั้งเดียว มันจึงไม่สามารถจดจำข้อมูลเหล่านั้นได้โดยง่าย ดังนั้นปัญหา overfitting จึงไม่ใช่ปัญหาหลักในบริบทนี้

ข้อมูลขนาดใหญ่ทำหน้าที่เป็นเกราะป้องกันในตัวมันเอง โมเดลที่ฝึกฝนด้วยชุดข้อมูลมหาศาลจะเห็นความหลากหลายที่เพียงพอที่จะทำให้โมเดลยังคงมีความสามารถในการประมวลผลแบบทั่วไป (general) ได้

ในสเกลระดับนี้ dropout กลับทำให้การเรียนรู้ช้าลง งานวิจัยล่าสุดแสดงให้เห็นว่าการนำ dropout ออกช่วยเพิ่มประสิทธิภาพในการทำ language modeling และการตอบคำถาม (question answering)

โมเดลระดับแนวหน้า