Hoe Transformers werken

Transformers hebben AI veranderd. Ze stopten met het lezen van tekst woord voor woord.

Oude modellen zoals RNN's werkten stap voor stap. Transformers vergelijken alle woorden in een sequentie tegelijkertijd. Dit ontwerp maakt moderne LLM's mogelijk.

Een Transformer is een neuraal netwerk dat is gebouwd op attention. Het kijkt naar een sequentie van tokens en leert hoe deze met elkaar verband houden. Dit is essentieel omdat taal afhankelijk is van context. Een woord heeft alleen betekenis door de relatie met andere woorden.

Het kernproces:

Self-attention stelt een token in staat om de vraag te stellen: Welke andere tokens zijn belangrijk voor mijn betekenis?

In de zin "The animal did not cross the street because it was tired" verwijst het woord "it" naar het dier. Self-attention stelt het model in staat om "it" te koppelen aan "animal" in plaats van aan "street".

Hoe attention werkt: Elk token creëert drie vectoren:

Multi-Head Attention voert meerdere van deze processen tegelijkertijd uit. Eén head kan de grammatica volgen. Een andere kan de betekenis volgen. Dit maakt het model slimmer.

Evolutie van de architectuur: De oorspronkelijke Transformer gebruikte een Encoder-Decoder-structuur. Moderne LLM's zoals GPT zijn voornamelijk decoder-only. Ze voorspellen het volgende token, voegen het toe aan de sequentie en herhalen dit proces.

Moderne LLM's gebruiken verschillende upgrades om snel en efficiënt te blijven:

Transformers werken door een sequentie om te zetten in een reeks relaties. Ze verfijnen deze relaties via gestapelde blokken.

Als je dit wilt leren, volg dan deze volgorde:

  1. Attention Mechanism
  2. Self-Attention en QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder-architectuur
  6. KV Cache en Efficient Attention

Bron: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optionele leercommunity: https://t.me/GyaanSetuAi