3 ไอเดียที่ทำให้ AI สมัยใหม่เป็นจริงได้

AI สมัยใหม่ดูเหมือนเวทมนตร์ คุณพิมพ์ประโยคหนึ่งประโยคแล้วเครื่องจักรก็เขียนคำตอบกลับมา มันดูเหมือนเป็นเรื่องลึกลับ แต่จริงๆ แล้วไม่ใช่เลย

สถาปัตยกรรมเบื้องหลังโมเดลเกือบทุกตัววางอยู่บนการแก้ไขทางวิศวกรรมแบบธรรมดาๆ การแก้ไขเหล่านี้ช่วยแก้ปัญหาเฉพาะจุด ไม่มีสูตรลับอะไรทั้งนั้น มีเพียงการปรับปรุงหลักๆ 3 อย่างเท่านั้น

  1. Skip Connections

ประมาณปี 2014 วิศวกรพยายามทำให้โครงข่ายประสาทเทียม (neural networks) มีความลึกมากขึ้น พวกเขาคิดว่ายิ่งมีเลเยอร์มาก ผลลัพธ์ก็จะยิ่งดีขึ้น แต่พวกเขาคิดผิด โครงข่ายที่ลึกกว่ามักจะให้ผลลัพธ์ที่แย่ลง เพราะสัญญาณความผิดพลาด (error signal) ไม่สามารถส่งไปถึงเลเยอร์แรกๆ ได้ สัญญาณอาจจะลดลงจนหายไปหรือระเบิดขึ้นมา (explode)

Skip connections เข้ามาแก้ปัญหานี้ แทนที่จะบังคับให้ทุกเลเยอร์ต้องเปลี่ยนแปลงอินพุต คุณปล่อยให้อินพุตข้ามไปยังเลเยอร์ถัดไปได้เลย โดยการนำอินพุตเดิมกลับมาบวกเข้ากับเอาต์พุต

สิ่งนี้ช่วยในสองเรื่อง:

  • ทำให้การ "ไม่ทำอะไรเลย" เป็นเรื่องง่าย หากเลเยอร์ใดไม่มีประโยชน์ อินพุตก็จะไหลผ่านไปโดยไม่มีการเปลี่ยนแปลง
  • สร้างเส้นทางตรงสำหรับสัญญาณความผิดพลาด ทำให้สัญญาณมี "เลนด่วน" ส่งไปยังเลเยอร์แรกๆ ได้
  1. Normalization

เมื่อข้อมูลเคลื่อนที่ผ่านโครงข่าย สเกลของตัวเลขจะเริ่มคลาดเคลื่อน เลเยอร์หนึ่งอาจให้ค่า 0.01 ในขณะที่เลเยอร์ถัดไปอาจให้ค่าถึง 5000 เมื่อตัวเลขไปถึงจุดสุดโต่งเช่นนี้ การเรียนรู้ก็จะหยุดลง

Normalization ช่วยปรับระดับให้สมดุล โดยการปรับให้ตัวเลขกลับมาอยู่รอบๆ ศูนย์และรักษาให้อยู่ในสเกลที่สม่ำเสมอ สิ่งนี้ช่วยให้คุณสามารถใช้ learning rate ที่สูงขึ้นและฝึกฝน (train) ได้เร็วขึ้นมาก และช่วยให้การคำนวณทางคณิตศาสตร์ยังคงทำงานต่อไปได้

  1. Attention

โมเดลสมัยก่อนจะอ่านข้อความทีละคำ ซึ่งทั้งช้าและขี้ลืม การจะเชื่อมโยงคำแรกเข้ากับคำสุดท้าย ข้อมูลต้องผ่านทุกคำที่อยู่ตรงกลาง และเมื่อถึงตอนท้าย ข้อมูลตอนเริ่มต้นก็มักจะสูญหายไป

Attention เข้ามาเปลี่ยนสิ่งนี้ แทนที่จะอ่านตามลำดับ ทุกคำจะมองไปยังคำอื่นๆ ทุกคำในประโยคพร้อมกัน คำว่า "it" สามารถมองตรงไปยังคำนามที่มันอ้างถึงได้ทันที ไม่ว่าคำนั้นจะอยู่ไกลแค่ไหนก็ตาม

เนื่องจากไม่มีอะไรขึ้นอยู่กับลำดับที่เฉพาะเจาะจง คุณจึงสามารถประมวลผลทุกอย่างได้พร้อมกัน สิ่งนี้ทำให้การฝึกฝนรวดเร็วและมีประสิทธิภาพ

Transformer คือผลลัพธ์จากการนำทั้งสามไอเดียนี้มาซ้อนทับกัน โดยใช้ attention blocks ที่ห่อหุ้มด้วย skip connections และมี normalization คั่นกลาง

AI ไม่ใช่เวทมนตร์ แต่มันคือผลลัพธ์จากการที่ผู้คนสังเกตเห็นว่ามีบางอย่างผิดปกติ และแก้ไขมันด้วยคณิตศาสตร์ที่เรียบง่าย

Source: https://dev.to/karthi_raman_02ec8161bda/three-ideas-made-modern-ai-possible-none-of-them-are-magic-ida

Optional learning community: https://t.me/GyaanSetuAi