Module 2 · onder de motorkap

Hoe wordt een LLM gemaakt?

Van ruwe tekstvoorspeller tot bruikbare assistent. We lopen pre-training, supervised fine-tuning, RLHF en Constitutional AI langs. Daarna: hoe de Transformer en attention werken, en wat het context window — het werkgeheugen — betekent voor je dagelijkse prompts.

Wat ga je leren: de drie trainingsstappen, RAG vs fine-tuning, attention, context window, “lost in the middle” — en drie heel concrete prompt-vuistregels die hieruit volgen.

Les 2.1 — De drie trainingsstappen

Doel: weten wat het verschil is tussen “tekst voltooien” en “chatbot worden”.

Elk modern model dat je gebruikt (ChatGPT, Claude, Gemini) heeft drie stappen doorlopen:

1. Pre-training

Lees ~alles wat ooit gedigitaliseerd is

  • Doel: voorspel het volgende token.
  • Data: web, boeken, papers, code (15–30 biljoen tokens).
  • Duur: maanden, miljoenen euro's.
  • Resultaat: taal voltooien — maar het weet niet wat je wilt.
2. SFT — Supervised Fine-Tuning

Leer hem vragen beantwoorden

  • Mensen schrijven tienduizenden vraag→antwoord-paren.
  • Model leert het juiste formaat en de toon.
  • Ook wel: instruction tuning, dialog data.
  • Resultaat: chatbot die uitleg geeft i.p.v. de zin afmaakt.
3. RLHF / DPO

Leer hem wát wij beter vinden

  • Mensen beoordelen twee antwoorden; voorkeur leert ‘alignment’.
  • Hier zit ook het meeste safety-werk.
  • DPO is een efficiëntere variant van RLHF.
  • Resultaat: ChatGPT, Claude, Gemini zoals jij ze kent.

De “persoonlijkheid” van een model — neigt het naar voorzichtigheid? Vraagt het door? Schrijft het direct of pas na nuance? — zit grotendeels in stap 3.

Vragen bij les 2.1

1. Waarom werkt “ruwe pre-training alleen” niet als chatbot?

2. Waar zit het meeste “safety”- en stijl-werk in een modern LLM?

Les 2.2 — Domain fine-tuning vs RAG

Doel: snappen waarom “medische LLM” klinkt aantrekkelijk, maar vaak niet de beste weg is.

Als je een LLM “medisch” wilt maken, heb je twee fundamenteel verschillende routes:

Route A — Domain fine-tuning

Trainen op medische tekst

  • Continued training op grote medische corpora.
  • Voorbeelden: Med-PaLM, MedGemma, MedLM.
  • Modern alternatief: LoRA — kleine adapters i.p.v. her-trainen van het hele model.
  • Trade-off: scherper hier, soms slechter elders. En het model ‘weet’ nog steeds geen exacte richtlijn-citaten.
Route B — RAG

Documenten in de prompt plakken

  • Documenten (richtlijn, paper, dossierfragment) in vector-database.
  • Bij een vraag: ophalen + in de prompt zetten + LLM laat antwoorden op die bron.
  • Geen her-training nodig; up-to-date te houden.
  • Voor klinische use cases vaak een betere keuze — controleerbaar, audit-baar, traceerbaar tot de bron.

De praktische regel

Wil je gewoon een ESC-richtlijn netjes laten samenvatten met goede bronvermelding? Dan is RAG (route B) bijna altijd beter dan een “medisch model” vertrouwen op zijn geheugen. Fine-tuning is interessanter voor stijl (klinische rapporten, bepaalde uitvoervorm) dan voor feiten.

Vragen bij les 2.2

3. Wil je dat een LLM betrouwbaar citeert uit de ESC-richtlijn endocarditis 2023, wat is dan doorgaans de beste route?

4. Wat is “LoRA” in de context van fine-tuning?

Les 2.3 — De Transformer en “attention”

Doel: één concept onthouden waarmee je drie prompt-gewoontes verklaart.

In 2017 publiceerden Vaswani et al. het paper “Attention is All You Need”. Het beschrijft de Transformer-architectuur — die zit onder elk modern LLM. Daarvóór verwerkten taalmodellen (RNNs) woorden één voor één en “vergaten” ze eerder in de zin.

Attention doet iets fundamenteel anders: bij het voorspellen van het volgende token kijkt het model naar alle eerdere tokens tegelijk, en weegt welke het belangrijkst zijn.

Concreet voorbeeld
Zin: “De patiënt had pijn die straalde naar zijn linker arm.” Wat is de ‘arm’ van? Voor ‘arm’ te begrijpen, moet het model terug-kijken naar ‘pijn’ (zelfde concept-cluster) en ‘linker’ (welke arm). Attention zorgt dat het model deze tokens in één keer kan ‘wegen’.

Twee gevolgen die je vandaag in je prompts kunt gebruiken:

  • Parallel trainbaar op GPU's. Daarom is de huidige schaal überhaupt mogelijk.
  • Het model ziet ALLES wat ervoor staat, gelijktijdig. Dat betekent: hoe je informatie ordent in je prompt, beïnvloedt direct wat “aandacht” krijgt.

Vragen bij les 2.3

5. Wat doet “attention” in een Transformer?

Les 2.4 — Het context window: het werkgeheugen

Doel: weten hoeveel het model “tegelijk in zijn hoofd” kan houden, en wanneer dat knapt.

Het context window is alles wat een model op dit moment kan zien: jouw prompt + zijn eigen antwoord tot nu toe + eventueel een systeembericht. Het is geen langetermijngeheugen — als de chat sluit, is het weg (tenzij je een “memory”-functie hebt aangezet).

1 k tokens — GPT-2 (2019), te klein voor een afdelingsbrief
128 k tokens — GPT-4 Turbo (2023), ~250 pagina's tekst
1 M tokens — Claude Sonnet 4.6 / Gemini 2.5 Pro (2025+) — hele ESC-richtlijn in één prompt

Maar bigger ≠ better in de praktijk. Onderzoek noemt het lost-in-the-middle-effect: informatie middenin een hele lange prompt wordt minder betrouwbaar opgepikt dan info bovenin of (vooral) onderaan.

Drie praktische gewoontes die direct volgen

  1. Zet je vraag onderaan. Context erboven, vraag eronder. Het laatste token heeft de meest directe lijn naar de output.
  2. Plak kritische bron-info vlak vóór je vraag. Niet in het midden van een 50-pagina-blok.
  3. Wees zuinig met “ruis”. Lange dump van irrelevante data verdunt de aandacht — letterlijk.

Vragen bij les 2.4

6. Je plakt een uitvoerig consult met onderaan je vraag “maak een ontslagbrief”. Daarna probeer je het andersom: vraag bovenaan, consult onderaan. Wat is bewezen vuistregel?

7. Wat betekent het “lost-in-the-middle”-effect?

8. Beste mentale beeld van het context window?

Live oefening — context-volgorde zelf testen

Voer deze twee prompts achter elkaar uit in een lege chat (eerst de A-versie, dan de B-versie als nieuwe chat). Vergelijk de antwoorden.

VERSIE A — vraag bovenaan: Stel een ontslagbrief op voor de huisarts in 200 woorden. Hieronder het consult: [plak hier een fictief consult van ~500 woorden van een patiënt met nieuw atriumfibrilleren, CHA2DS2-VASc 3, gestart met apixaban, controle 6 weken]
VERSIE B — vraag onderaan: Hieronder het consult: [plak hier hetzelfde fictieve consult van ~500 woorden] Stel een ontslagbrief op voor de huisarts in 200 woorden.

Bij de meeste modellen merk je een subtiel verschil: versie B (vraag onderaan, na de bron) heeft vaker een nettere structuur en bevat minder “weggelaten” klinische details. Geen wet, wel een vuistregel.

Les 2.5 — Hoe een token wordt “gemaakt” (de inference-cyclus)

Doel: snappen waarom het soms langzaam reageert en waarom je de eerste tokens al ziet voordat het einde gegenereerd is.

Tokens worden één voor één gegenereerd. Voor elke nieuwe token doorloopt het model ~100 lagen van attention en feed-forward berekeningen. Daarom zie je het antwoord verschijnen alsof er iemand typt: het model heeft op moment T pas tot het token T berekend.

Twee gevolgen:

  • KV-caching. Eerdere token-representaties worden hergebruikt, dus alleen de nieuwste token hoeft volledig opnieuw berekend. Vandaar dat de eerste tokens vaak het traagst zijn (“time to first token”) en het tempo daarna sneller wordt.
  • Het model kan zijn eerste token niet ongedaan maken. Heeft het iets “A” geantwoord, dan zit het daaraan vast en bouwt de rest van het antwoord daar omheen — ook als A fout was. Dit is een van de mechanismes achter koppige fouten in lange antwoorden.

Werkprincipe: stop een wankel antwoord vroeg af

Als je in de eerste twee zinnen al een hallucinerend begin ziet (“Volgens hoofdstuk 5.3 van de richtlijn …”) — onderbreek en herformuleer. Doorgaan kost meer tijd en het model heeft moeite zijn eigen valse aanname terug te draaien.

Vragen bij les 2.5

9. Waarom is een fout in de eerste zin van het antwoord problematischer dan een fout halverwege?

Take-home van module 2

Drie stappen

Pre-training (taal voltooien) → SFT (vragen beantwoorden) → RLHF/DPO (voorkeuren + safety). De persoonlijkheid zit in stap 3.

RAG > medisch FT (vaak)

Voor feitelijke citaten is “bron in de prompt plakken” betrouwbaarder dan een medisch-fine-tuned model dat ‘uit zijn hoofd’ werkt.

Vraag onderaan

Context boven, vraag onderaan. Vermijd info in het midden voor lange prompts. Werkt op elk model dat een Transformer is — dus alle die je gebruikt.