ไม่มีใครต้องการโมเดลขนาด 70B พารามิเตอร์ของคุณอีกต่อไปแล้ว

โลกของ AI เคยให้ความสำคัญกับแค่เรื่องขนาดเพียงอย่างเดียว

ผู้คนต่างไล่ตามโมเดลที่ใหญ่ขึ้น หน้าต่างบริบท (context windows) ที่กว้างขึ้น และคะแนนเบนช์มาร์ก (benchmarks) ที่สูงขึ้น หากโมเดลของคุณไม่ใหญ่ยักษ์ คุณก็แทบจะไม่มีที่ยืนในวงการนี้

ยุคสมัยนั้นกำลังจะสิ้นสุดลง

โมเดลขนาดมหึมานั้นน่าประทับใจ แต่คนส่วนใหญ่ไม่ได้ต้องการพลังงานขนาดนั้น ผู้ช่วยในแผงหน้าปัดรถยนต์ไม่จำเป็นต้องเขียนบทกวี สิ่งที่มันต้องการคือการเข้าใจคำสั่ง "ลดแอร์ลงหน่อย" และทำงานได้โดยไม่สูบแบตเตอรี่จนหมด

โมเดลขนาดเล็กที่มีความเชี่ยวชาญเฉพาะด้านกำลังเข้ามาแทนที่ด้วยเหตุผลหลัก 5 ประการ:

  • การใช้งานบนอุปกรณ์ (On-device use): ปัจจุบันโทรศัพท์มีฮาร์ดแวร์ที่สามารถรันโมเดลขนาดเล็กได้ในตัวเครื่อง ผู้ช่วยของคุณจึงสามารถทำงานได้แม้ในอุโมงค์หรือขณะอยู่บนเครื่องบินที่ไม่มีอินเทอร์เน็ต
  • ความเป็นส่วนตัวและกฎระเบียบ: โรงพยาบาลและสำนักงานกฎหมายไม่สามารถส่งข้อมูลที่ละเอียดอ่อนไปยัง API ของบุคคลที่สามได้ การรันโมเดลขนาดเล็กบนฮาร์ดแวร์ในพื้นที่ช่วยให้ข้อมูลถูกเก็บไว้ภายในองค์กร
  • ความหน่วงต่ำ (Low latency): รถยนต์ไร้คนขับไม่สามารถรอเซิร์ฟเวอร์บนคลาวด์เพื่อตัดสินใจว่าสิ่งที่เห็นคือคนเดินถนนหรือไม่ โมเดลต้องทำงานอยู่ในจุดที่มีการตัดสินใจเกิดขึ้นทันที
  • ต้นทุนที่ต่ำกว่า: การรันคำสั่งหลายล้านครั้งบนโมเดลขนาดมหึมาจะทำลายกำไรของคุณ โมเดลขนาดเล็กที่ผ่านการปรับจูนมาอย่างดีมักจะมีราคาถูกกว่าและยั่งยืนกว่า
  • การเชื่อมต่อที่ไม่เสถียร: ในหลายพื้นที่ทั่วโลก อินเทอร์เน็ตไม่ได้มีใช้งานตลอดเวลา โมเดลขนาดเล็กช่วยให้ผลิตภัณฑ์สามารถทำงานแบบออฟไลน์ได้

คุณสามารถทำให้โมเดลมีขนาดเล็กลงได้ด้วย 3 วิธีหลัก:

  • Quantization: การลดความละเอียดของค่าน้ำหนักโมเดล (model weights) เพื่อประหยัดพื้นที่
  • Pruning: การตัดการเชื่อมต่อที่ไม่จำเป็นซึ่งไม่ได้ช่วยเพิ่มมูลค่าออกไป
  • Knowledge distillation: การใช้โมเดลขนาดใหญ่เพื่อสอนโมเดลขนาดเล็กให้เลียนแบบกระบวนการคิด

การเปลี่ยนแปลงนี้ทำให้ทักษะที่จำเป็นต้องเปลี่ยนไป

การเขียน Prompt ให้โมเดลยักษ์ใหญ่คือทักษะหนึ่ง แต่การเลือก การทำ fine-tuning และการ deploy โมเดลเฉพาะทางนั้นเป็นความท้าทายทางวิศวกรรมที่ต่างออกไป มันคือเรื่องของการหาจุดสมดุล (tradeoffs) ระหว่างความเร็ว ต้นทุน และความแม่นยำ

เลิกพยายามสร้างเครื่องมือยักษ์ใหญ่เพียงชิ้นเดียวที่ทำทุกอย่างได้แบบครึ่งๆ กลางๆ แต่จงสร้างเครื่องมือขนาดเล็กหลายๆ ชิ้นที่ทำสิ่งเดียวได้อย่างยอดเยี่ยม

โมเดลขนาดเล็กไม่ใช่การลดสเปก แต่มันคือเครื่องมือที่เหมาะสมกว่าสำหรับงานนั้นๆ

Source: https://dev.to/blakcodes/nobody-wants-your-70b-parameter-model-anymore-56jo

Optional learning community: https://t.me/GyaanSetuAi