ไม่มีใครต้องการโมเดลขนาด 70B พารามิเตอร์ของคุณอีกต่อไปแล้ว
โลกของ AI เคยให้ความสำคัญกับแค่เรื่องขนาดเพียงอย่างเดียว
ผู้คนต่างไล่ตามโมเดลที่ใหญ่ขึ้น หน้าต่างบริบท (context windows) ที่กว้างขึ้น และคะแนนเบนช์มาร์ก (benchmarks) ที่สูงขึ้น หากโมเดลของคุณไม่ใหญ่ยักษ์ คุณก็แทบจะไม่มีที่ยืนในวงการนี้
ยุคสมัยนั้นกำลังจะสิ้นสุดลง
โมเดลขนาดมหึมานั้นน่าประทับใจ แต่คนส่วนใหญ่ไม่ได้ต้องการพลังงานขนาดนั้น ผู้ช่วยในแผงหน้าปัดรถยนต์ไม่จำเป็นต้องเขียนบทกวี สิ่งที่มันต้องการคือการเข้าใจคำสั่ง "ลดแอร์ลงหน่อย" และทำงานได้โดยไม่สูบแบตเตอรี่จนหมด
โมเดลขนาดเล็กที่มีความเชี่ยวชาญเฉพาะด้านกำลังเข้ามาแทนที่ด้วยเหตุผลหลัก 5 ประการ:
- การใช้งานบนอุปกรณ์ (On-device use): ปัจจุบันโทรศัพท์มีฮาร์ดแวร์ที่สามารถรันโมเดลขนาดเล็กได้ในตัวเครื่อง ผู้ช่วยของคุณจึงสามารถทำงานได้แม้ในอุโมงค์หรือขณะอยู่บนเครื่องบินที่ไม่มีอินเทอร์เน็ต
- ความเป็นส่วนตัวและกฎระเบียบ: โรงพยาบาลและสำนักงานกฎหมายไม่สามารถส่งข้อมูลที่ละเอียดอ่อนไปยัง API ของบุคคลที่สามได้ การรันโมเดลขนาดเล็กบนฮาร์ดแวร์ในพื้นที่ช่วยให้ข้อมูลถูกเก็บไว้ภายในองค์กร
- ความหน่วงต่ำ (Low latency): รถยนต์ไร้คนขับไม่สามารถรอเซิร์ฟเวอร์บนคลาวด์เพื่อตัดสินใจว่าสิ่งที่เห็นคือคนเดินถนนหรือไม่ โมเดลต้องทำงานอยู่ในจุดที่มีการตัดสินใจเกิดขึ้นทันที
- ต้นทุนที่ต่ำกว่า: การรันคำสั่งหลายล้านครั้งบนโมเดลขนาดมหึมาจะทำลายกำไรของคุณ โมเดลขนาดเล็กที่ผ่านการปรับจูนมาอย่างดีมักจะมีราคาถูกกว่าและยั่งยืนกว่า
- การเชื่อมต่อที่ไม่เสถียร: ในหลายพื้นที่ทั่วโลก อินเทอร์เน็ตไม่ได้มีใช้งานตลอดเวลา โมเดลขนาดเล็กช่วยให้ผลิตภัณฑ์สามารถทำงานแบบออฟไลน์ได้
คุณสามารถทำให้โมเดลมีขนาดเล็กลงได้ด้วย 3 วิธีหลัก:
- Quantization: การลดความละเอียดของค่าน้ำหนักโมเดล (model weights) เพื่อประหยัดพื้นที่
- Pruning: การตัดการเชื่อมต่อที่ไม่จำเป็นซึ่งไม่ได้ช่วยเพิ่มมูลค่าออกไป
- Knowledge distillation: การใช้โมเดลขนาดใหญ่เพื่อสอนโมเดลขนาดเล็กให้เลียนแบบกระบวนการคิด
การเปลี่ยนแปลงนี้ทำให้ทักษะที่จำเป็นต้องเปลี่ยนไป
การเขียน Prompt ให้โมเดลยักษ์ใหญ่คือทักษะหนึ่ง แต่การเลือก การทำ fine-tuning และการ deploy โมเดลเฉพาะทางนั้นเป็นความท้าทายทางวิศวกรรมที่ต่างออกไป มันคือเรื่องของการหาจุดสมดุล (tradeoffs) ระหว่างความเร็ว ต้นทุน และความแม่นยำ
เลิกพยายามสร้างเครื่องมือยักษ์ใหญ่เพียงชิ้นเดียวที่ทำทุกอย่างได้แบบครึ่งๆ กลางๆ แต่จงสร้างเครื่องมือขนาดเล็กหลายๆ ชิ้นที่ทำสิ่งเดียวได้อย่างยอดเยี่ยม
โมเดลขนาดเล็กไม่ใช่การลดสเปก แต่มันคือเครื่องมือที่เหมาะสมกว่าสำหรับงานนั้นๆ
Source: https://dev.to/blakcodes/nobody-wants-your-70b-parameter-model-anymore-56jo
Optional learning community: https://t.me/GyaanSetuAi