Cara Kerja Transformer

Transformer mengubah AI. Mereka berhenti membaca teks kata demi kata.

Model lama seperti RNN bergerak selangkah demi selangkah. Transformer membandingkan semua kata dalam sebuah urutan sekaligus. Desain ini memungkinkan adanya LLM modern.

Transformer adalah jaringan saraf yang dibangun berdasarkan attention. Ia melihat urutan token dan mempelajari bagaimana mereka saling berhubungan. Hal ini sangat penting karena bahasa bergantung pada konteks. Sebuah kata hanya memiliki makna melalui hubungannya dengan kata-kata lain.

Proses Inti:

Self-Attention memungkinkan sebuah token untuk bertanya: Token mana lagi yang penting bagi makna saya?

Dalam kalimat "The animal did not cross the street because it was tired," kata "it" merujuk pada "animal". Self-attention memungkinkan model untuk menghubungkan "it" ke "animal" alih-alih ke "street."

Cara Kerja Attention: Setiap token membuat tiga vektor:

Multi-Head Attention menjalankan beberapa proses ini sekaligus. Satu head mungkin melacak tata bahasa. Head lainnya mungkin melacak makna. Hal ini membuat model menjadi lebih cerdas.

Evolusi Arsitektur: Transformer asli menggunakan struktur Encoder-Decoder. LLM modern seperti GPT sebagian besar hanya menggunakan decoder (decoder-only). Mereka memprediksi token berikutnya, menambahkannya ke dalam urutan, dan mengulanginya.

LLM modern menggunakan beberapa peningkatan agar tetap cepat dan efisien:

Transformer bekerja dengan mengubah sebuah urutan menjadi sekumpulan hubungan. Mereka menyempurnakan hubungan ini melalui blok-blok yang bertumpuk.

Jika Anda ingin mempelajari ini, ikuti urutan berikut:

  1. Attention Mechanism
  2. Self-Attention and QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi