GPT ไม่รู้ด้วยซ้ำว่าคำแต่ละคำมีความหมายว่าอย่างไร

GPT ไม่ได้เข้าใจภาษา แต่มันเข้าใจตัวเลข

คนส่วนใหญ่มักอธิบายเรื่อง attention ด้วยการเปรียบเทียบ เช่น การใช้ลูกศรหรือเส้นเชื่อมที่เรืองแสง แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นจริง

ผมลองไล่ตามสมการคณิตศาสตร์ด้วยตัวเอง โดยใช้การคูณเมทริกซ์จริงๆ และนี่คือความจริงว่า transformer ทำงานอย่างไร

กระบวนการเริ่มต้นด้วย embeddings โดยทุกคำจะได้รับพิกัดแบบสุ่ม ตัวอย่างเช่น คำว่า "love" อาจเริ่มต้นที่ [0.10, 0.30] ซึ่งในช่วงแรกตัวเลขเหล่านี้จะยังไม่มีความหมายใดๆ

จากนั้นจึงเกิดกระบวนการ attention ขึ้น

ลองดูประโยคนี้: "The dog chased the cat because it was fast."

โมเดลต้องตัดสินใจว่า "it" หมายถึงสุนัขหรือแมว มันไม่มีกฎไวยากรณ์ให้ทำตาม มันเพียงแค่ดูคำก่อนหน้าแล้วให้คะแนน โดยตั้งคำถามว่า "ตอนนี้ฉันควรให้ความสำคัญกับคุณมากแค่ไหน?"

สิ่งนี้จะส่งผลออกมาเป็นตารางน้ำหนัก (weight table)

สำหรับลำดับ [I, love, pizza]:

  • "love" อาจให้ความสำคัญกับ "I" 51% และให้ตัวเอง 49%
  • "pizza" สามารถมองเห็นภาพรวมทั้งหมด โดยจะกระจายความสำคัญไปยังทั้งสามคำ

นี่ไม่ใช่การเปรียบเทียบ คำว่า "love" เริ่มต้นจากการเป็นเวกเตอร์หนึ่งตัว แต่หลังจากผ่านกระบวนการ attention มันจะกลายเป็นเวกเตอร์ใหม่ มันเปลี่ยนตำแหน่งในพื้นที่ (space) จริงๆ โดยการดูดซับส่วนหนึ่งของเวกเตอร์จากคำว่า "I" เข้ามา

คำว่า "love" ในบริบทของ "I" จะเป็นจุดทางคณิตศาสตร์ที่ต่างจากคำว่า "love" ที่อยู่โดดๆ บริบทก็คือการใช้คณิตศาสตร์เพื่อผสมผสานเวกเตอร์เข้าด้วยกันนั่นเอง

มันเรียนรู้ได้อย่างไร? ผ่านการขยับเพียงเล็กน้อย

เมื่อโมเดลทำนายผิด backpropagation จะค่อยๆ ปรับค่าน้ำหนัก (weights) การเปลี่ยนแปลงเหล่านี้มีขนาดเล็กมาก เช่น น้ำหนักอาจเปลี่ยนจาก 0.400 เป็น 0.397

การเปลี่ยนแปลงเพียงเล็กน้อยแค่ 0.009 สามารถเปลี่ยนผลการทำนายจากผิดเป็นถูกได้ และ GPT-3 ทำแบบนี้ถึง 3 แสนล้านครั้ง

สิ่งนี้ทำให้เกิด zero-shot generalization โมเดลเรียนรู้ว่า "You" และ "I" มีความคล้ายคลึงกันทางคณิตศาสตร์ มันจึงทำนายคำว่า "love" ต่อท้ายคำว่า "You" ได้ แม้ว่าจะไม่เคยเห็นคู่คำนี้มาก่อนก็ตาม ทั้งหมดนี้เป็นเพราะความใกล้ชิดกันในเชิงเรขาคณิต (geometric proximity)

โมเดลไม่เคยเรียนรู้กฎเกณฑ์ แต่มันเรียนรู้ "ทิศทาง"

น้ำหนักแต่ละตัวเปรียบเสมือนเข็มทิศขนาดจิ๋ว การฝึกฝน (training) คือการชี้เข็มเหล่านี้เพื่อให้เรขาคณิตกลายเป็นสิ่งที่มีประโยชน์ มันไม่มีตำราไวยากรณ์ มีเพียงแค่คณิตศาสตร์เท่านั้น

ที่มา: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

ชุมชนการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi