การทำงานของ Transformers
Transformers ได้เปลี่ยนโฉมหน้าของ AI โดยเลิกใช้วิธีการอ่านข้อความทีละคำ
โมเดลแบบเก่าอย่าง RNN จะประมวลผลไปทีละขั้นตอน แต่ Transformers จะเปรียบเทียบคำทั้งหมดในลำดับข้อมูลพร้อมกันในคราวเดียว การออกแบบนี้เองที่ทำให้เกิด LLM ในปัจจุบัน
Transformer คือโครงข่ายประสาทเทียม (neural network) ที่สร้างขึ้นบนกลไก attention มันจะมองไปที่ลำดับของ tokens และเรียนรู้ความสัมพันธ์ระหว่างกัน สิ่งนี้สำคัญมากเพราะภาษาขึ้นอยู่กับบริบท คำหนึ่งคำจะมี ความหมายได้ก็ต่อเมื่อมีความสัมพันธ์กับคำอื่นๆ เท่านั้น
กระบวนการหลัก:
- Tokens ถูกแปลงเป็น embeddings
- ข้อมูลตำแหน่ง (Positional information) ช่วยเพิ่มลำดับ
- Self-attention คำนวณความสัมพันธ์
- Feed-forward networks ประมวลผลข้อมูล
- Output สร้างการแทนค่าเชิงบริบท (contextual representations)
Self-Attention ช่วยให้ token หนึ่งสามารถตั้งคำถามได้ว่า: "token อื่นๆ ตัวไหนบ้างที่มีผลต่อความหมายของฉัน?"
ในประโยค "The animal did not cross the street because it was tired," คำว่า "it" หมายถึงสัตว์ (animal) กลไก self-attention ช่วยให้โมเดลเชื่อมโยง "it" เข้ากับ "animal" แทนที่จะเป็น "street"
กลไก Attention ทำงานอย่างไร: แต่ละ token จะสร้างเวกเตอร์ขึ้นมา 3 แบบ:
- Query: สิ่งที่ token นี้กำลังค้นหา
- Key: สิ่งที่แต่ละ token นำเสนอ
- Value: ข้อมูลที่จะดึงออกมา
Multi-Head Attention จะรันกระบวนการเหล่านี้หลายๆ อย่างพร้อมกัน หัว (head) หนึ่งอาจจะติดตามไวยากรณ์ ในขณะที่อีกหัวหนึ่งอาจจะติดตามความหมาย สิ่งนี้ทำให้โมเดลฉลาดขึ้น
วิวัฒนาการของสถาปัตยกรรม: Transformer ดั้งเดิมใช้โครงสร้างแบบ Encoder-Decoder แต่ LLM สมัยใหม่เช่น GPT ส่วนใหญ่จะเป็นแบบ decoder-only โดยจะทำนาย token ถัดไป เพิ่มเข้าไปในลำดับ แล้วทำซ้ำไปเรื่อยๆ
LLM สมัยใหม่ใช้การอัปเกรดหลายอย่างเพื่อให้ทำงานได้รวดเร็วและมีประสิทธิภาพ:
- RoPE: ปรับปรุงวิธีการที่โมเดลเข้าใจลำดับคำ
- RMSNorm: ทำให้การทำ normalization ง่ายขึ้น
- GQA: ลดการใช้หน่วยความจำระหว่างการสร้างข้อความ (generation)
- SwiGLU: เสริมความแข็งแกร่งให้กับชั้นประสาท (neural layers)
- MoE: ใช้ผู้เชี่ยวชาญแบบเบาบาง (sparse experts) เพื่อขยายขนาดโมเดลให้ใหญ่ขึ้น
Transformers ทำงานโดยการเปลี่ยนลำดับข้อมูลให้กลายเป็นชุดของความสัมพันธ์ และขัดเกลาความสัมพันธ์เหล่านี้ผ่านบล็อกที่วางซ้อนกัน (stacked blocks)
หากคุณต้องการเรียนรู้เรื่องนี้ ให้ศึกษาตามลำดับดังนี้:
- Attention Mechanism
- Self-Attention and QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache and Efficient Attention
Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Optional learning community: https://t.me/GyaanSetuAi