3 แนวคิดที่ทำให้ AI เป็นไปได้
AI สมัยใหม่ดูเหมือนเวทมนตร์ คุณพิมพ์ประโยคหนึ่งลงไปแล้วเครื่องจักรก็เขียนตอบกลับมา มันให้ความรู้สึกที่แปลกใหม่และน่าทึ่ง
แต่มันไม่ใช่แบบนั้น
AI สมัยใหม่เกิดขึ้นได้เพราะวิศวกรได้แก้ไขปัญหาเฉพาะทาง พวกเขาพบเครือข่ายที่ทำงานผิดพลาดและทำการซ่อมแซมมัน
และนี่คือ 3 การแก้ไขทางวิศวกรรมที่สร้าง Transformer ขึ้นมา
- Skip Connections
ในปี 2014 นักวิจัยพยายามทำให้ neural networks มีความลึกมากขึ้น พวกเขาคิดว่าการมีเลเยอร์มากขึ้นจะให้ผลลัพธ์ที่ดีขึ้น แต่มันกลับล้มเหลว เพราะเครือข่ายที่ลึกกว่าเดิมกลับทำงานได้แย่ลง
สัญญาณความผิดพลาด (error signal) ที่ใช้ในการฝึกฝนเครือข่ายจะลดลงจนหายไปหรือพุ่งสูงขึ้นจนควบคุมไม่ได้เมื่อเดินทางผ่านหลายเลเยอร์ ทำให้เลเยอร์ในช่วงแรกไม่ได้รับข้อมูลป้อนกลับที่มีประโยชน์เลย
วิธีแก้ไขนั้นง่ายมาก แทนที่จะบังคับให้ทุกเลเยอร์ต้องเปลี่ยนแปลงข้อมูลนำเข้า (input) ก็ปล่อยให้ข้อมูลนำเข้าข้ามผ่านไปได้เลย
ใน ResNet block คุณจะนำข้อมูลนำเข้าเดิมมาบวกกลับเข้ากับผลลัพธ์ (output) วิธีนี้จะสร้างเส้นทางตรงเพื่อให้สัญญาณเดินทางผ่านไปได้ การเพิ่มเลเยอร์มากขึ้นจึงไม่ทำให้ระบบพังอีกต่อไป หากเลเยอร์ใดไม่ช่วยอะไร มันก็แค่ส่งผ่านข้อมูลนำเข้าไปโดยไม่มีการเปลี่ยนแปลง
- Normalization
เมื่อข้อมูลเคลื่อนที่ผ่านเครือข่าย ตัวเลขต่างๆ จะเริ่มคลาดเคลื่อน เลเยอร์หนึ่งอาจให้ผลลัพธ์เป็น 0.01 ในขณะที่เลเยอร์ถัดไปอาจให้ผลลัพธ์ถึง 5000 เมื่อตัวเลขไปถึงจุดสุดโต่งเช่นนี้ การเรียนรู้ก็จะหยุดลง
Normalization แก้ปัญหานี้ด้วยการปรับระดับให้สมดุล โดยการปรับให้ตัวเลขกลับมาอยู่รอบๆ ศูนย์ และปรับขนาด (scale) ให้อยู่ในขอบเขตที่สม่ำเสมอ
สิ่งนี้ช่วยให้การคำนวณทางคณิตศาสตร์มีความเสถียร ทำให้คุณสามารถใช้ learning rates ที่สูงขึ้นและฝึกฝนได้เร็วขึ้นมาก มันคือการแก้ไขที่ใช้งานได้จริงซึ่งช่วยประหยัดเวลาในการ debugging ได้มหาศาล
- Attention
โมเดลสมัยก่อนจะอ่านข้อความทีละคำ ซึ่งเป็นกระบวนการที่ช้าเพราะไม่สามารถประมวลผลคำแบบขนาน (parallel) ได้ นอกจากนี้ยังขี้ลืม เพราะโมเดลจะลืมส่วนต้นของประโยคไปแล้วเมื่ออ่านมาถึงส่วนท้าย
Attention เข้ามาเปลี่ยนสิ่งนี้ แทนที่จะอ่านตามลำดับ ทุกๆ คำจะมองไปยังคำอื่นๆ ทุกคำในประโยคพร้อมกันในคราวเดียว
คำว่า "it" สามารถเชื่อมโยงไปยังคำนามที่มันอ้างถึงได้โดยตรง ไม่ว่าคำนั้นจะอยู่ไกลแค่ไหนก็ตาม และเนื่องจากคำต่างๆ ไม่ต้องพึ่งพาการเรียงลำดับ คุณจึงสามารถคำนวณทุกอย่างได้พร้อมกันโดยใช้ GPU
Transformer ผสมผสานทั้งสามสิ่งนี้เข้าด้วยกัน โดยใช้ attention blocks ที่ห่อหุ้มด้วย skip connections และมี normalization แทรกอยู่ระหว่างกลาง
AI ไม่ได้ต้องการการค้นพบที่ยิ่งใหญ่ในการทำความเข้าใจความฉลาด แต่มันต้องการการแก้ไขที่ชาญฉลาด 3 ประการสำหรับระบบที่เคยทำงานผิดพลาด
Optional learning community: https://t.me/GyaanSetuAi