3 แนวคิดที่ทำให้ AI เป็นไปได้

AI สมัยใหม่ดูเหมือนเวทมนตร์ คุณพิมพ์ประโยคหนึ่งลงไปแล้วเครื่องจักรก็เขียนตอบกลับมา มันให้ความรู้สึกที่แปลกใหม่และน่าทึ่ง

แต่มันไม่ใช่แบบนั้น

AI สมัยใหม่เกิดขึ้นได้เพราะวิศวกรได้แก้ไขปัญหาเฉพาะทาง พวกเขาพบเครือข่ายที่ทำงานผิดพลาดและทำการซ่อมแซมมัน

และนี่คือ 3 การแก้ไขทางวิศวกรรมที่สร้าง Transformer ขึ้นมา

  1. Skip Connections

ในปี 2014 นักวิจัยพยายามทำให้ neural networks มีความลึกมากขึ้น พวกเขาคิดว่าการมีเลเยอร์มากขึ้นจะให้ผลลัพธ์ที่ดีขึ้น แต่มันกลับล้มเหลว เพราะเครือข่ายที่ลึกกว่าเดิมกลับทำงานได้แย่ลง

สัญญาณความผิดพลาด (error signal) ที่ใช้ในการฝึกฝนเครือข่ายจะลดลงจนหายไปหรือพุ่งสูงขึ้นจนควบคุมไม่ได้เมื่อเดินทางผ่านหลายเลเยอร์ ทำให้เลเยอร์ในช่วงแรกไม่ได้รับข้อมูลป้อนกลับที่มีประโยชน์เลย

วิธีแก้ไขนั้นง่ายมาก แทนที่จะบังคับให้ทุกเลเยอร์ต้องเปลี่ยนแปลงข้อมูลนำเข้า (input) ก็ปล่อยให้ข้อมูลนำเข้าข้ามผ่านไปได้เลย

ใน ResNet block คุณจะนำข้อมูลนำเข้าเดิมมาบวกกลับเข้ากับผลลัพธ์ (output) วิธีนี้จะสร้างเส้นทางตรงเพื่อให้สัญญาณเดินทางผ่านไปได้ การเพิ่มเลเยอร์มากขึ้นจึงไม่ทำให้ระบบพังอีกต่อไป หากเลเยอร์ใดไม่ช่วยอะไร มันก็แค่ส่งผ่านข้อมูลนำเข้าไปโดยไม่มีการเปลี่ยนแปลง

  1. Normalization

เมื่อข้อมูลเคลื่อนที่ผ่านเครือข่าย ตัวเลขต่างๆ จะเริ่มคลาดเคลื่อน เลเยอร์หนึ่งอาจให้ผลลัพธ์เป็น 0.01 ในขณะที่เลเยอร์ถัดไปอาจให้ผลลัพธ์ถึง 5000 เมื่อตัวเลขไปถึงจุดสุดโต่งเช่นนี้ การเรียนรู้ก็จะหยุดลง

Normalization แก้ปัญหานี้ด้วยการปรับระดับให้สมดุล โดยการปรับให้ตัวเลขกลับมาอยู่รอบๆ ศูนย์ และปรับขนาด (scale) ให้อยู่ในขอบเขตที่สม่ำเสมอ

สิ่งนี้ช่วยให้การคำนวณทางคณิตศาสตร์มีความเสถียร ทำให้คุณสามารถใช้ learning rates ที่สูงขึ้นและฝึกฝนได้เร็วขึ้นมาก มันคือการแก้ไขที่ใช้งานได้จริงซึ่งช่วยประหยัดเวลาในการ debugging ได้มหาศาล

  1. Attention

โมเดลสมัยก่อนจะอ่านข้อความทีละคำ ซึ่งเป็นกระบวนการที่ช้าเพราะไม่สามารถประมวลผลคำแบบขนาน (parallel) ได้ นอกจากนี้ยังขี้ลืม เพราะโมเดลจะลืมส่วนต้นของประโยคไปแล้วเมื่ออ่านมาถึงส่วนท้าย

Attention เข้ามาเปลี่ยนสิ่งนี้ แทนที่จะอ่านตามลำดับ ทุกๆ คำจะมองไปยังคำอื่นๆ ทุกคำในประโยคพร้อมกันในคราวเดียว

คำว่า "it" สามารถเชื่อมโยงไปยังคำนามที่มันอ้างถึงได้โดยตรง ไม่ว่าคำนั้นจะอยู่ไกลแค่ไหนก็ตาม และเนื่องจากคำต่างๆ ไม่ต้องพึ่งพาการเรียงลำดับ คุณจึงสามารถคำนวณทุกอย่างได้พร้อมกันโดยใช้ GPU

Transformer ผสมผสานทั้งสามสิ่งนี้เข้าด้วยกัน โดยใช้ attention blocks ที่ห่อหุ้มด้วย skip connections และมี normalization แทรกอยู่ระหว่างกลาง

AI ไม่ได้ต้องการการค้นพบที่ยิ่งใหญ่ในการทำความเข้าใจความฉลาด แต่มันต้องการการแก้ไขที่ชาญฉลาด 3 ประการสำหรับระบบที่เคยทำงานผิดพลาด

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi