𝗕𝗮𝗴𝗮𝗶𝗺𝗮𝗻𝗮 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿 𝗕𝗲𝗿𝗳𝘂𝗻𝗴𝘀𝗶

Transformer telah mengubah AI. Ia tidak lagi membaca teks satu demi satu perkataan.

Model lama seperti RNN bergerak langkah demi langkah. Transformer membandingkan semua perkataan dalam satu urutan secara serentak. Reka bentuk ini membolehkan kewujudan LLM moden.

Transformer ialah rangkaian neural yang dibina berasaskan attention. Ia melihat urutan token dan mempelajari bagaimana ia saling berkaitan. Ini sangat penting kerana bahasa bergantung pada konteks. Sesuatu perkataan hanya mempunyai makna melalui hubungannya dengan perkataan lain.

Proses Teras:

Self-Attention membolehkan satu token bertanya: Token manakah yang lain penting untuk makna saya?

Dalam ayat "The animal did not cross the street because it was tired," perkataan "it" merujuk kepada "animal". Self-attention membolehkan model menghubungkan "it" kepada "animal" dan bukannya "street."

Bagaimana Attention Berfungsi: Setiap token mencipta tiga vektor:

Multi-Head Attention menjalankan beberapa proses ini secara serentak. Satu head mungkin menjejak tatabahasa. Satu lagi mungkin menjejak makna. Ini menjadikan model lebih pintar.

Evolusi Seni Bina: Transformer asal menggunakan struktur Encoder-Decoder. LLM moden seperti GPT kebanyakannya adalah decoder-only. Ia meramalkan token seterusnya, menambahnya ke dalam urutan, dan mengulanginya.

LLM moden menggunakan beberapa naik taraf untuk kekal pantas dan cekap:

Transformer berfungsi dengan menukarkan urutan kepada satu set hubungan. Ia memperhalusi hubungan ini melalui blok-blok bertindan.

Jika anda ingin mempelajari ini, ikut urutan ini:

  1. Attention Mechanism
  2. Self-Attention dan QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache dan Efficient Attention

Sumber: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi