Hoe Transformers werken

📅4 hours ago⏱2 min read

Hoe Transformers werken

Transformers hebben AI veranderd. Ze stopten met het lezen van tekst woord voor woord.

Oude modellen zoals RNN's werkten stap voor stap. Transformers vergelijken alle woorden in een sequentie tegelijkertijd. Dit ontwerp maakt moderne LLM's mogelijk.

Een Transformer is een neuraal netwerk dat is gebouwd op attention. Het kijkt naar een sequentie van tokens en leert hoe deze met elkaar verband houden. Dit is essentieel omdat taal afhankelijk is van context. Een woord heeft alleen betekenis door de relatie met andere woorden.

Het kernproces:

Tokens worden omgezet in embeddings
Positionele informatie voegt volgorde toe
Self-attention berekent relaties
Feed-forward netwerken verwerken de data
De output produceert contextuele representaties

Self-attention stelt een token in staat om de vraag te stellen: Welke andere tokens zijn belangrijk voor mijn betekenis?

In de zin "The animal did not cross the street because it was tired" verwijst het woord "it" naar het dier. Self-attention stelt het model in staat om "it" te koppelen aan "animal" in plaats van aan "street".

Hoe attention werkt: Elk token creëert drie vectoren:

Query: Wat dit token zoekt
Key: Wat elk token biedt
Value: De informatie die moet worden opgehaald

Multi-Head Attention voert meerdere van deze processen tegelijkertijd uit. Eén head kan de grammatica volgen. Een andere kan de betekenis volgen. Dit maakt het model slimmer.

Evolutie van de architectuur: De oorspronkelijke Transformer gebruikte een Encoder-Decoder-structuur. Moderne LLM's zoals GPT zijn voornamelijk decoder-only. Ze voorspellen het volgende token, voegen het toe aan de sequentie en herhalen dit proces.

Moderne LLM's gebruiken verschillende upgrades om snel en efficiënt te blijven:

RoPE: Verbetert hoe het model de woordvolgorde begrijpt
RMSNorm: Vereenvoudigt normalisatie
GQA: Vermindert de geheugenkosten tijdens generatie
SwiGLU: Versterkt de neurale lagen
MoE: Gebruikt sparse experts om grootschaliger te schalen

Transformers werken door een sequentie om te zetten in een reeks relaties. Ze verfijnen deze relaties via gestapelde blokken.

Als je dit wilt leren, volg dan deze volgorde:

Attention Mechanism
Self-Attention en QKV
Multi-Head Attention
Positional Encoding
Decoder-architectuur
KV Cache en Efficient Attention

Bron: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optionele leercommunity: https://t.me/GyaanSetuAi

Hoe Transformers werken

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲