Bagaimana Transformer Bekerja

📅4 hours ago⏱2 min read

Cara Kerja Transformer

Transformer mengubah AI. Mereka berhenti membaca teks kata demi kata.

Model lama seperti RNN bergerak selangkah demi selangkah. Transformer membandingkan semua kata dalam sebuah urutan sekaligus. Desain ini memungkinkan adanya LLM modern.

Transformer adalah jaringan saraf yang dibangun berdasarkan attention. Ia melihat urutan token dan mempelajari bagaimana mereka saling berhubungan. Hal ini sangat penting karena bahasa bergantung pada konteks. Sebuah kata hanya memiliki makna melalui hubungannya dengan kata-kata lain.

Proses Inti:

Token diubah menjadi embeddings
Informasi posisi menambahkan urutan
Self-attention menghitung hubungan
Jaringan feed-forward memproses data
Output menghasilkan representasi kontekstual

Self-Attention memungkinkan sebuah token untuk bertanya: Token mana lagi yang penting bagi makna saya?

Dalam kalimat "The animal did not cross the street because it was tired," kata "it" merujuk pada "animal". Self-attention memungkinkan model untuk menghubungkan "it" ke "animal" alih-alih ke "street."

Cara Kerja Attention: Setiap token membuat tiga vektor:

Query: Apa yang dicari token ini
Key: Apa yang ditawarkan setiap token
Value: Informasi yang akan diambil

Multi-Head Attention menjalankan beberapa proses ini sekaligus. Satu head mungkin melacak tata bahasa. Head lainnya mungkin melacak makna. Hal ini membuat model menjadi lebih cerdas.

Evolusi Arsitektur: Transformer asli menggunakan struktur Encoder-Decoder. LLM modern seperti GPT sebagian besar hanya menggunakan decoder (decoder-only). Mereka memprediksi token berikutnya, menambahkannya ke dalam urutan, dan mengulanginya.

LLM modern menggunakan beberapa peningkatan agar tetap cepat dan efisien:

RoPE: Meningkatkan cara model memahami urutan kata
RMSNorm: Menyederhanakan normalisasi
GQA: Mengurangi biaya memori selama generation
SwiGLU: Memperkuat lapisan saraf
MoE: Menggunakan sparse experts untuk skala yang lebih besar

Transformer bekerja dengan mengubah sebuah urutan menjadi sekumpulan hubungan. Mereka menyempurnakan hubungan ini melalui blok-blok yang bertumpuk.

Jika Anda ingin mempelajari ini, ikuti urutan berikut:

Attention Mechanism
Self-Attention and QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi

Bagaimana Transformer Bekerja

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲