Cara Kerja Transformer
Transformer mengubah AI. Mereka berhenti membaca teks kata demi kata.
Model lama seperti RNN bergerak selangkah demi selangkah. Transformer membandingkan semua kata dalam sebuah urutan sekaligus. Desain ini memungkinkan adanya LLM modern.
Transformer adalah jaringan saraf yang dibangun berdasarkan attention. Ia melihat urutan token dan mempelajari bagaimana mereka saling berhubungan. Hal ini sangat penting karena bahasa bergantung pada konteks. Sebuah kata hanya memiliki makna melalui hubungannya dengan kata-kata lain.
Proses Inti:
- Token diubah menjadi embeddings
- Informasi posisi menambahkan urutan
- Self-attention menghitung hubungan
- Jaringan feed-forward memproses data
- Output menghasilkan representasi kontekstual
Self-Attention memungkinkan sebuah token untuk bertanya: Token mana lagi yang penting bagi makna saya?
Dalam kalimat "The animal did not cross the street because it was tired," kata "it" merujuk pada "animal". Self-attention memungkinkan model untuk menghubungkan "it" ke "animal" alih-alih ke "street."
Cara Kerja Attention: Setiap token membuat tiga vektor:
- Query: Apa yang dicari token ini
- Key: Apa yang ditawarkan setiap token
- Value: Informasi yang akan diambil
Multi-Head Attention menjalankan beberapa proses ini sekaligus. Satu head mungkin melacak tata bahasa. Head lainnya mungkin melacak makna. Hal ini membuat model menjadi lebih cerdas.
Evolusi Arsitektur: Transformer asli menggunakan struktur Encoder-Decoder. LLM modern seperti GPT sebagian besar hanya menggunakan decoder (decoder-only). Mereka memprediksi token berikutnya, menambahkannya ke dalam urutan, dan mengulanginya.
LLM modern menggunakan beberapa peningkatan agar tetap cepat dan efisien:
- RoPE: Meningkatkan cara model memahami urutan kata
- RMSNorm: Menyederhanakan normalisasi
- GQA: Mengurangi biaya memori selama generation
- SwiGLU: Memperkuat lapisan saraf
- MoE: Menggunakan sparse experts untuk skala yang lebih besar
Transformer bekerja dengan mengubah sebuah urutan menjadi sekumpulan hubungan. Mereka menyempurnakan hubungan ini melalui blok-blok yang bertumpuk.
Jika Anda ingin mempelajari ini, ikuti urutan berikut:
- Attention Mechanism
- Self-Attention and QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache and Efficient Attention
Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Optional learning community: https://t.me/GyaanSetuAi