𝗕𝗮𝗴𝗮𝗶𝗺𝗮𝗻𝗮 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿 𝗕𝗲𝗿𝗳𝘂𝗻𝗴𝘀𝗶
Transformer telah mengubah AI. Ia tidak lagi membaca teks satu demi satu perkataan.
Model lama seperti RNN bergerak langkah demi langkah. Transformer membandingkan semua perkataan dalam satu urutan secara serentak. Reka bentuk ini membolehkan kewujudan LLM moden.
Transformer ialah rangkaian neural yang dibina berasaskan attention. Ia melihat urutan token dan mempelajari bagaimana ia saling berkaitan. Ini sangat penting kerana bahasa bergantung pada konteks. Sesuatu perkataan hanya mempunyai makna melalui hubungannya dengan perkataan lain.
Proses Teras:
- Token ditukarkan kepada embedding
- Maklumat kedudukan menambah urutan
- Self-attention mengira hubungan
- Rangkaian feed-forward memproses data
- Output menghasilkan representasi kontekstual
Self-Attention membolehkan satu token bertanya: Token manakah yang lain penting untuk makna saya?
Dalam ayat "The animal did not cross the street because it was tired," perkataan "it" merujuk kepada "animal". Self-attention membolehkan model menghubungkan "it" kepada "animal" dan bukannya "street."
Bagaimana Attention Berfungsi: Setiap token mencipta tiga vektor:
- Query: Apa yang dicari oleh token ini
- Key: Apa yang ditawarkan oleh setiap token
- Value: Maklumat yang perlu diambil
Multi-Head Attention menjalankan beberapa proses ini secara serentak. Satu head mungkin menjejak tatabahasa. Satu lagi mungkin menjejak makna. Ini menjadikan model lebih pintar.
Evolusi Seni Bina: Transformer asal menggunakan struktur Encoder-Decoder. LLM moden seperti GPT kebanyakannya adalah decoder-only. Ia meramalkan token seterusnya, menambahnya ke dalam urutan, dan mengulanginya.
LLM moden menggunakan beberapa naik taraf untuk kekal pantas dan cekap:
- RoPE: Menambah baik cara model memahami urutan perkataan
- RMSNorm: Memudahkan penormalan
- GQA: Mengurangkan kos memori semasa penjanaan
- SwiGLU: Memperkukuh lapisan neural
- MoE: Menggunakan pakar jarang (sparse experts) untuk penskalaan yang lebih besar
Transformer berfungsi dengan menukarkan urutan kepada satu set hubungan. Ia memperhalusi hubungan ini melalui blok-blok bertindan.
Jika anda ingin mempelajari ini, ikut urutan ini:
- Attention Mechanism
- Self-Attention dan QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache dan Efficient Attention
Sumber: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi