𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

📅3 hours ago⏱2 min read

การทำงานของ Transformers

Transformers ได้เปลี่ยนโฉมหน้าของ AI โดยเลิกใช้วิธีการอ่านข้อความทีละคำ

โมเดลแบบเก่าอย่าง RNN จะประมวลผลไปทีละขั้นตอน แต่ Transformers จะเปรียบเทียบคำทั้งหมดในลำดับข้อมูลพร้อมกันในคราวเดียว การออกแบบนี้เองที่ทำให้เกิด LLM ในปัจจุบัน

Transformer คือโครงข่ายประสาทเทียม (neural network) ที่สร้างขึ้นบนกลไก attention มันจะมองไปที่ลำดับของ tokens และเรียนรู้ความสัมพันธ์ระหว่างกัน สิ่งนี้สำคัญมากเพราะภาษาขึ้นอยู่กับบริบท คำหนึ่งคำจะมี ความหมายได้ก็ต่อเมื่อมีความสัมพันธ์กับคำอื่นๆ เท่านั้น

กระบวนการหลัก:

Tokens ถูกแปลงเป็น embeddings
ข้อมูลตำแหน่ง (Positional information) ช่วยเพิ่มลำดับ
Self-attention คำนวณความสัมพันธ์
Feed-forward networks ประมวลผลข้อมูล
Output สร้างการแทนค่าเชิงบริบท (contextual representations)

Self-Attention ช่วยให้ token หนึ่งสามารถตั้งคำถามได้ว่า: "token อื่นๆ ตัวไหนบ้างที่มีผลต่อความหมายของฉัน?"

ในประโยค "The animal did not cross the street because it was tired," คำว่า "it" หมายถึงสัตว์ (animal) กลไก self-attention ช่วยให้โมเดลเชื่อมโยง "it" เข้ากับ "animal" แทนที่จะเป็น "street"

กลไก Attention ทำงานอย่างไร: แต่ละ token จะสร้างเวกเตอร์ขึ้นมา 3 แบบ:

Query: สิ่งที่ token นี้กำลังค้นหา
Key: สิ่งที่แต่ละ token นำเสนอ
Value: ข้อมูลที่จะดึงออกมา

Multi-Head Attention จะรันกระบวนการเหล่านี้หลายๆ อย่างพร้อมกัน หัว (head) หนึ่งอาจจะติดตามไวยากรณ์ ในขณะที่อีกหัวหนึ่งอาจจะติดตามความหมาย สิ่งนี้ทำให้โมเดลฉลาดขึ้น

วิวัฒนาการของสถาปัตยกรรม: Transformer ดั้งเดิมใช้โครงสร้างแบบ Encoder-Decoder แต่ LLM สมัยใหม่เช่น GPT ส่วนใหญ่จะเป็นแบบ decoder-only โดยจะทำนาย token ถัดไป เพิ่มเข้าไปในลำดับ แล้วทำซ้ำไปเรื่อยๆ

LLM สมัยใหม่ใช้การอัปเกรดหลายอย่างเพื่อให้ทำงานได้รวดเร็วและมีประสิทธิภาพ:

RoPE: ปรับปรุงวิธีการที่โมเดลเข้าใจลำดับคำ
RMSNorm: ทำให้การทำ normalization ง่ายขึ้น
GQA: ลดการใช้หน่วยความจำระหว่างการสร้างข้อความ (generation)
SwiGLU: เสริมความแข็งแกร่งให้กับชั้นประสาท (neural layers)
MoE: ใช้ผู้เชี่ยวชาญแบบเบาบาง (sparse experts) เพื่อขยายขนาดโมเดลให้ใหญ่ขึ้น

Transformers ทำงานโดยการเปลี่ยนลำดับข้อมูลให้กลายเป็นชุดของความสัมพันธ์ และขัดเกลาความสัมพันธ์เหล่านี้ผ่านบล็อกที่วางซ้อนกัน (stacked blocks)

หากคุณต้องการเรียนรู้เรื่องนี้ ให้ศึกษาตามลำดับดังนี้:

Attention Mechanism
Self-Attention and QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲