𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial21 ชั่วโมงที่ผ่านมา2min read

Dropout คือความก้าวหน้าครั้งสำคัญในปี 2014 แต่ LLM สมัยใหม่ก้าวข้ามมันไปแล้ว

ในปี 2014 นักวิจัยได้นำเสนอ dropout ซึ่งทำงานโดยการสุ่มปิดการทำงานของนิวรอน (neurons) ในระหว่างการฝึกฝน วิธีนี้ช่วยป้องกันไม่ให้เครือข่ายจดจำข้อมูล (memorizing data) และบังคับให้โมเดลเรียนรู้รูปแบบที่ดีขึ้น

บทเรียนส่วนใหญ่ยังคงสอนเรื่อง dropout แต่โมเดลภาษาที่ใหญ่ที่สุดในปัจจุบันกลับไม่ได้ใช้งานมัน

ทำไมอุตสาหกรรมถึงก้าวข้ามมันไป?

วิธีการฝึกฝนโมเดลอย่าง LLaMA และ GPT-3 นั้นแตกต่างออกไป โมเดลเหล่านี้ใช้การทำ single-epoch pretraining ซึ่งจะเห็นข้อมูลแต่ละชิ้นเพียงครั้งเดียวเท่านั้น เมื่อโมเดลเห็นข้อมูลระดับล้านล้านโทเคนเพียงแค่ครั้งเดียว มันจึงไม่สามารถจดจำข้อมูลเหล่านั้นได้โดยง่าย ดังนั้นปัญหา overfitting จึงไม่ใช่ปัญหาหลักในบริบทนี้

ข้อมูลขนาดใหญ่ทำหน้าที่เป็นเกราะป้องกันในตัวมันเอง โมเดลที่ฝึกฝนด้วยชุดข้อมูลมหาศาลจะเห็นความหลากหลายที่เพียงพอที่จะทำให้โมเดลยังคงมีความสามารถในการประมวลผลแบบทั่วไป (general) ได้

ในสเกลระดับนี้ dropout กลับทำให้การเรียนรู้ช้าลง งานวิจัยล่าสุดแสดงให้เห็นว่าการนำ dropout ออกช่วยเพิ่มประสิทธิภาพในการทำ language modeling และการตอบคำถาม (question answering)

โมเดลระดับแนวหน้า

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Continue reading

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗕𝗮𝘁𝗰𝗵 𝗻𝗼𝗿𝗺𝗮𝗹𝗶𝘇𝗲𝗱 𝗠𝗮𝘅𝗼𝘂𝘁 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗶𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸

LLM เพื่อความเข้าใจทางภาษา

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

Small Language Models in 2026: When to Drop the Big API