การทำงานของ Transformers

Transformers ได้เปลี่ยนโฉมหน้าของ AI โดยเลิกใช้วิธีการอ่านข้อความทีละคำ

โมเดลแบบเก่าอย่าง RNN จะประมวลผลไปทีละขั้นตอน แต่ Transformers จะเปรียบเทียบคำทั้งหมดในลำดับข้อมูลพร้อมกันในคราวเดียว การออกแบบนี้เองที่ทำให้เกิด LLM ในปัจจุบัน

Transformer คือโครงข่ายประสาทเทียม (neural network) ที่สร้างขึ้นบนกลไก attention มันจะมองไปที่ลำดับของ tokens และเรียนรู้ความสัมพันธ์ระหว่างกัน สิ่งนี้สำคัญมากเพราะภาษาขึ้นอยู่กับบริบท คำหนึ่งคำจะมี ความหมายได้ก็ต่อเมื่อมีความสัมพันธ์กับคำอื่นๆ เท่านั้น

กระบวนการหลัก:

Self-Attention ช่วยให้ token หนึ่งสามารถตั้งคำถามได้ว่า: "token อื่นๆ ตัวไหนบ้างที่มีผลต่อความหมายของฉัน?"

ในประโยค "The animal did not cross the street because it was tired," คำว่า "it" หมายถึงสัตว์ (animal) กลไก self-attention ช่วยให้โมเดลเชื่อมโยง "it" เข้ากับ "animal" แทนที่จะเป็น "street"

กลไก Attention ทำงานอย่างไร: แต่ละ token จะสร้างเวกเตอร์ขึ้นมา 3 แบบ:

Multi-Head Attention จะรันกระบวนการเหล่านี้หลายๆ อย่างพร้อมกัน หัว (head) หนึ่งอาจจะติดตามไวยากรณ์ ในขณะที่อีกหัวหนึ่งอาจจะติดตามความหมาย สิ่งนี้ทำให้โมเดลฉลาดขึ้น

วิวัฒนาการของสถาปัตยกรรม: Transformer ดั้งเดิมใช้โครงสร้างแบบ Encoder-Decoder แต่ LLM สมัยใหม่เช่น GPT ส่วนใหญ่จะเป็นแบบ decoder-only โดยจะทำนาย token ถัดไป เพิ่มเข้าไปในลำดับ แล้วทำซ้ำไปเรื่อยๆ

LLM สมัยใหม่ใช้การอัปเกรดหลายอย่างเพื่อให้ทำงานได้รวดเร็วและมีประสิทธิภาพ:

Transformers ทำงานโดยการเปลี่ยนลำดับข้อมูลให้กลายเป็นชุดของความสัมพันธ์ และขัดเกลาความสัมพันธ์เหล่านี้ผ่านบล็อกที่วางซ้อนกัน (stacked blocks)

หากคุณต้องการเรียนรู้เรื่องนี้ ให้ศึกษาตามลำดับดังนี้:

  1. Attention Mechanism
  2. Self-Attention and QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi