Bagaimana Transformer Berfungsi

📅3 hours ago⏱2 min read

𝗕𝗮𝗴𝗮𝗶𝗺𝗮𝗻𝗮 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿 𝗕𝗲𝗿𝗳𝘂𝗻𝗴𝘀𝗶

Transformer telah mengubah AI. Ia tidak lagi membaca teks satu demi satu perkataan.

Model lama seperti RNN bergerak langkah demi langkah. Transformer membandingkan semua perkataan dalam satu urutan secara serentak. Reka bentuk ini membolehkan kewujudan LLM moden.

Transformer ialah rangkaian neural yang dibina berasaskan attention. Ia melihat urutan token dan mempelajari bagaimana ia saling berkaitan. Ini sangat penting kerana bahasa bergantung pada konteks. Sesuatu perkataan hanya mempunyai makna melalui hubungannya dengan perkataan lain.

Proses Teras:

Token ditukarkan kepada embedding
Maklumat kedudukan menambah urutan
Self-attention mengira hubungan
Rangkaian feed-forward memproses data
Output menghasilkan representasi kontekstual

Self-Attention membolehkan satu token bertanya: Token manakah yang lain penting untuk makna saya?

Dalam ayat "The animal did not cross the street because it was tired," perkataan "it" merujuk kepada "animal". Self-attention membolehkan model menghubungkan "it" kepada "animal" dan bukannya "street."

Bagaimana Attention Berfungsi: Setiap token mencipta tiga vektor:

Query: Apa yang dicari oleh token ini
Key: Apa yang ditawarkan oleh setiap token
Value: Maklumat yang perlu diambil

Multi-Head Attention menjalankan beberapa proses ini secara serentak. Satu head mungkin menjejak tatabahasa. Satu lagi mungkin menjejak makna. Ini menjadikan model lebih pintar.

Evolusi Seni Bina: Transformer asal menggunakan struktur Encoder-Decoder. LLM moden seperti GPT kebanyakannya adalah decoder-only. Ia meramalkan token seterusnya, menambahnya ke dalam urutan, dan mengulanginya.

LLM moden menggunakan beberapa naik taraf untuk kekal pantas dan cekap:

RoPE: Menambah baik cara model memahami urutan perkataan
RMSNorm: Memudahkan penormalan
GQA: Mengurangkan kos memori semasa penjanaan
SwiGLU: Memperkukuh lapisan neural
MoE: Menggunakan pakar jarang (sparse experts) untuk penskalaan yang lebih besar

Transformer berfungsi dengan menukarkan urutan kepada satu set hubungan. Ia memperhalusi hubungan ini melalui blok-blok bertindan.

Jika anda ingin mempelajari ini, ikut urutan ini:

Attention Mechanism
Self-Attention dan QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache dan Efficient Attention

Sumber: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Bagaimana Transformer Berfungsi

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲