GPT ไม่รู้เลยว่าคำแต่ละคำมีความหมายว่าอย่างไร

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 สัปดาห์ที่ผ่านมา2min read

GPT ไม่รู้เลยว่าคำแต่ละคำมีความหมายว่าอย่างไร

GPT ไม่รู้ด้วยซ้ำว่าคำแต่ละคำมีความหมายว่าอย่างไร

GPT ไม่ได้เข้าใจภาษา แต่มันเข้าใจตัวเลข

คนส่วนใหญ่มักอธิบายเรื่อง attention ด้วยการเปรียบเทียบ เช่น การใช้ลูกศรหรือเส้นเชื่อมที่เรืองแสง แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นจริง

ผมลองไล่ตามสมการคณิตศาสตร์ด้วยตัวเอง โดยใช้การคูณเมทริกซ์จริงๆ และนี่คือความจริงว่า transformer ทำงานอย่างไร

กระบวนการเริ่มต้นด้วย embeddings โดยทุกคำจะได้รับพิกัดแบบสุ่ม ตัวอย่างเช่น คำว่า "love" อาจเริ่มต้นที่ [0.10, 0.30] ซึ่งในช่วงแรกตัวเลขเหล่านี้จะยังไม่มีความหมายใดๆ

จากนั้นจึงเกิดกระบวนการ attention ขึ้น

ลองดูประโยคนี้: "The dog chased the cat because it was fast."

โมเดลต้องตัดสินใจว่า "it" หมายถึงสุนัขหรือแมว มันไม่มีกฎไวยากรณ์ให้ทำตาม มันเพียงแค่ดูคำก่อนหน้าแล้วให้คะแนน โดยตั้งคำถามว่า "ตอนนี้ฉันควรให้ความสำคัญกับคุณมากแค่ไหน?"

สิ่งนี้จะส่งผลออกมาเป็นตารางน้ำหนัก (weight table)

สำหรับลำดับ [I, love, pizza]:

"love" อาจให้ความสำคัญกับ "I" 51% และให้ตัวเอง 49%
"pizza" สามารถมองเห็นภาพรวมทั้งหมด โดยจะกระจายความสำคัญไปยังทั้งสามคำ

นี่ไม่ใช่การเปรียบเทียบ คำว่า "love" เริ่มต้นจากการเป็นเวกเตอร์หนึ่งตัว แต่หลังจากผ่านกระบวนการ attention มันจะกลายเป็นเวกเตอร์ใหม่ มันเปลี่ยนตำแหน่งในพื้นที่ (space) จริงๆ โดยการดูดซับส่วนหนึ่งของเวกเตอร์จากคำว่า "I" เข้ามา

คำว่า "love" ในบริบทของ "I" จะเป็นจุดทางคณิตศาสตร์ที่ต่างจากคำว่า "love" ที่อยู่โดดๆ บริบทก็คือการใช้คณิตศาสตร์เพื่อผสมผสานเวกเตอร์เข้าด้วยกันนั่นเอง

มันเรียนรู้ได้อย่างไร? ผ่านการขยับเพียงเล็กน้อย

เมื่อโมเดลทำนายผิด backpropagation จะค่อยๆ ปรับค่าน้ำหนัก (weights) การเปลี่ยนแปลงเหล่านี้มีขนาดเล็กมาก เช่น น้ำหนักอาจเปลี่ยนจาก 0.400 เป็น 0.397

การเปลี่ยนแปลงเพียงเล็กน้อยแค่ 0.009 สามารถเปลี่ยนผลการทำนายจากผิดเป็นถูกได้ และ GPT-3 ทำแบบนี้ถึง 3 แสนล้านครั้ง

สิ่งนี้ทำให้เกิด zero-shot generalization โมเดลเรียนรู้ว่า "You" และ "I" มีความคล้ายคลึงกันทางคณิตศาสตร์ มันจึงทำนายคำว่า "love" ต่อท้ายคำว่า "You" ได้ แม้ว่าจะไม่เคยเห็นคู่คำนี้มาก่อนก็ตาม ทั้งหมดนี้เป็นเพราะความใกล้ชิดกันในเชิงเรขาคณิต (geometric proximity)

โมเดลไม่เคยเรียนรู้กฎเกณฑ์ แต่มันเรียนรู้ "ทิศทาง"

น้ำหนักแต่ละตัวเปรียบเสมือนเข็มทิศขนาดจิ๋ว การฝึกฝน (training) คือการชี้เข็มเหล่านี้เพื่อให้เรขาคณิตกลายเป็นสิ่งที่มีประโยชน์ มันไม่มีตำราไวยากรณ์ มีเพียงแค่คณิตศาสตร์เท่านั้น

ที่มา: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

ชุมชนการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi

GPT ไม่รู้เลยว่าคำแต่ละคำมีความหมายว่าอย่างไร

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

GPT ทำได้มากกว่าที่คุณคิด

โมเดล AI ทำงานอย่างไรกันแน่