Module 2 – Hoe wordt een LLM gemaakt?

Module 2 · onder de motorkap

Hoe wordt een LLM gemaakt?

Van ruwe tekstvoorspeller tot bruikbare assistent. We lopen pre-training, supervised fine-tuning, RLHF en Constitutional AI langs. Daarna: hoe de Transformer en attention werken, en wat het context window — het werkgeheugen — betekent voor je dagelijkse prompts.

Wat ga je leren: de drie trainingsstappen, RAG vs fine-tuning, attention, context window, “lost in the middle” — en drie heel concrete prompt-vuistregels die hieruit volgen.

Les 2.1 — De drie trainingsstappen

Doel: weten wat het verschil is tussen “tekst voltooien” en “chatbot worden”.

Elk modern model dat je gebruikt (ChatGPT, Claude, Gemini) heeft drie stappen doorlopen:

1. Pre-training

Lees ~alles wat ooit gedigitaliseerd is

Doel: voorspel het volgende token.
Data: web, boeken, papers, code (15–30 biljoen tokens).
Duur: maanden, miljoenen euro's.
Resultaat: taal voltooien — maar het weet niet wat je wilt.

2. SFT — Supervised Fine-Tuning

Leer hem vragen beantwoorden

Mensen schrijven tienduizenden vraag→antwoord-paren.
Model leert het juiste formaat en de toon.
Ook wel: instruction tuning, dialog data.
Resultaat: chatbot die uitleg geeft i.p.v. de zin afmaakt.

3. RLHF / DPO

Leer hem wát wij beter vinden

Mensen beoordelen twee antwoorden; voorkeur leert ‘alignment’.
Hier zit ook het meeste safety-werk.
DPO is een efficiëntere variant van RLHF.
Resultaat: ChatGPT, Claude, Gemini zoals jij ze kent.

De “persoonlijkheid” van een model — neigt het naar voorzichtigheid? Vraagt het door? Schrijft het direct of pas na nuance? — zit grotendeels in stap 3.

Vragen bij les 2.1

1. Waarom werkt “ruwe pre-training alleen” niet als chatbot?

Omdat het model in stap 1 nog te klein is om vragen te begrijpen.
Omdat pre-training alleen op code wordt gedaan, niet op taal.
Omdat het na pre-training alleen tekst voltooit; pas SFT + RLHF maken het een bruikbare assistent.

2. Waar zit het meeste “safety”- en stijl-werk in een modern LLM?

Tijdens pre-training.
Tijdens RLHF/DPO (preference learning).
Tijdens SFT — daar krijgt het zijn karakter.

Les 2.2 — Domain fine-tuning vs RAG

Doel: snappen waarom “medische LLM” klinkt aantrekkelijk, maar vaak niet de beste weg is.

Als je een LLM “medisch” wilt maken, heb je twee fundamenteel verschillende routes:

Route A — Domain fine-tuning

Trainen op medische tekst

Continued training op grote medische corpora.
Voorbeelden: Med-PaLM, MedGemma, MedLM.
Modern alternatief: LoRA — kleine adapters i.p.v. her-trainen van het hele model.
Trade-off: scherper hier, soms slechter elders. En het model ‘weet’ nog steeds geen exacte richtlijn-citaten.

Route B — RAG

Documenten in de prompt plakken

Documenten (richtlijn, paper, dossierfragment) in vector-database.
Bij een vraag: ophalen + in de prompt zetten + LLM laat antwoorden op die bron.
Geen her-training nodig; up-to-date te houden.
Voor klinische use cases vaak een betere keuze — controleerbaar, audit-baar, traceerbaar tot de bron.

De praktische regel

Wil je gewoon een ESC-richtlijn netjes laten samenvatten met goede bronvermelding? Dan is RAG (route B) bijna altijd beter dan een “medisch model” vertrouwen op zijn geheugen. Fine-tuning is interessanter voor stijl (klinische rapporten, bepaalde uitvoervorm) dan voor feiten.

Vragen bij les 2.2

3. Wil je dat een LLM betrouwbaar citeert uit de ESC-richtlijn endocarditis 2023, wat is dan doorgaans de beste route?

Een specifiek medisch fine-tuned model gebruiken; die kennen alle richtlijnen.
Een RAG-systeem opzetten met de richtlijn als bron, of zelf de relevante hoofdstukken in de prompt plakken.
Drie keer dezelfde vraag stellen aan ChatGPT en de meest gegeven versie kiezen.

4. Wat is “LoRA” in de context van fine-tuning?

Kleine adapter-matrices die je traint zonder het hele model opnieuw te leren — efficiënte fine-tuning.
Een safety-laag die hallucinaties tegenhoudt.
Een nieuwe RAG-database voor zorginstellingen.

Les 2.3 — De Transformer en “attention”

Doel: één concept onthouden waarmee je drie prompt-gewoontes verklaart.

In 2017 publiceerden Vaswani et al. het paper “Attention is All You Need”. Het beschrijft de Transformer-architectuur — die zit onder elk modern LLM. Daarvóór verwerkten taalmodellen (RNNs) woorden één voor één en “vergaten” ze eerder in de zin.

Attention doet iets fundamenteel anders: bij het voorspellen van het volgende token kijkt het model naar alle eerdere tokens tegelijk, en weegt welke het belangrijkst zijn.

Concreet voorbeeld

Zin: “De patiënt had pijn die straalde naar zijn linker arm.” Wat is de ‘arm’ van? Voor ‘arm’ te begrijpen, moet het model terug-kijken naar ‘pijn’ (zelfde concept-cluster) en ‘linker’ (welke arm). Attention zorgt dat het model deze tokens in één keer kan ‘wegen’.

Twee gevolgen die je vandaag in je prompts kunt gebruiken:

Parallel trainbaar op GPU's. Daarom is de huidige schaal überhaupt mogelijk.
Het model ziet ALLES wat ervoor staat, gelijktijdig. Dat betekent: hoe je informatie ordent in je prompt, beïnvloedt direct wat “aandacht” krijgt.

Vragen bij les 2.3

5. Wat doet “attention” in een Transformer?

Het versnelt de berekening op GPU's door de tekst korter te maken.
Het laat het model alle eerdere tokens tegelijk ‘zien’ en weegt welke het belangrijkst zijn voor het volgende token.
Het detecteert wanneer een gebruiker een hallucinatie krijgt.

Les 2.4 — Het context window: het werkgeheugen

Doel: weten hoeveel het model “tegelijk in zijn hoofd” kan houden, en wanneer dat knapt.

Het context window is alles wat een model op dit moment kan zien: jouw prompt + zijn eigen antwoord tot nu toe + eventueel een systeembericht. Het is geen langetermijngeheugen — als de chat sluit, is het weg (tenzij je een “memory”-functie hebt aangezet).

1 k tokens — GPT-2 (2019), te klein voor een afdelingsbrief

128 k tokens — GPT-4 Turbo (2023), ~250 pagina's tekst

1 M tokens — Claude Sonnet 4.6 / Gemini 2.5 Pro (2025+) — hele ESC-richtlijn in één prompt

Maar bigger ≠ better in de praktijk. Onderzoek noemt het lost-in-the-middle-effect: informatie middenin een hele lange prompt wordt minder betrouwbaar opgepikt dan info bovenin of (vooral) onderaan.

Drie praktische gewoontes die direct volgen

Zet je vraag onderaan. Context erboven, vraag eronder. Het laatste token heeft de meest directe lijn naar de output.
Plak kritische bron-info vlak vóór je vraag. Niet in het midden van een 50-pagina-blok.
Wees zuinig met “ruis”. Lange dump van irrelevante data verdunt de aandacht — letterlijk.

Vragen bij les 2.4

6. Je plakt een uitvoerig consult met onderaan je vraag “maak een ontslagbrief”. Daarna probeer je het andersom: vraag bovenaan, consult onderaan. Wat is bewezen vuistregel?

Vraag bovenaan werkt altijd beter — de chat ziet hem dan eerst.
Maakt niet uit; alleen de tekst-lengte telt.
Vraag onderaan na de context werkt doorgaans beter; het laatste token heeft de meest directe lijn naar de output.

7. Wat betekent het “lost-in-the-middle”-effect?

Info in het midden van een lange prompt wordt minder betrouwbaar opgepikt dan info aan het begin of einde.
Modellen vergeten precies het begin van de prompt; einde en midden blijven sterk.
Korte prompts werken nooit; je moet altijd middenin tekst herhalen.

8. Beste mentale beeld van het context window?

Een soort hard disk waar het model permanent op opslaat wat jij intypt.
Werkgeheugen voor déze chat: jouw prompt + antwoord tot nu toe. Sluit de chat = leeg (tenzij ‘memory’ aan staat).
Een gedeelde cloud-database waar alle gebruikers samen in lezen.

Live oefening — context-volgorde zelf testen

Voer deze twee prompts achter elkaar uit in een lege chat (eerst de A-versie, dan de B-versie als nieuwe chat). Vergelijk de antwoorden.

VERSIE A — vraag bovenaan: Stel een ontslagbrief op voor de huisarts in 200 woorden. Hieronder het consult: [plak hier een fictief consult van ~500 woorden van een patiënt met nieuw atriumfibrilleren, CHA2DS2-VASc 3, gestart met apixaban, controle 6 weken]

VERSIE B — vraag onderaan: Hieronder het consult: [plak hier hetzelfde fictieve consult van ~500 woorden] Stel een ontslagbrief op voor de huisarts in 200 woorden.

Open in ChatGPT ↗ Open in Claude ↗

Bij de meeste modellen merk je een subtiel verschil: versie B (vraag onderaan, na de bron) heeft vaker een nettere structuur en bevat minder “weggelaten” klinische details. Geen wet, wel een vuistregel.

Les 2.5 — Hoe een token wordt “gemaakt” (de inference-cyclus)

Doel: snappen waarom het soms langzaam reageert en waarom je de eerste tokens al ziet voordat het einde gegenereerd is.

Tokens worden één voor één gegenereerd. Voor elke nieuwe token doorloopt het model ~100 lagen van attention en feed-forward berekeningen. Daarom zie je het antwoord verschijnen alsof er iemand typt: het model heeft op moment T pas tot het token T berekend.

Twee gevolgen:

KV-caching. Eerdere token-representaties worden hergebruikt, dus alleen de nieuwste token hoeft volledig opnieuw berekend. Vandaar dat de eerste tokens vaak het traagst zijn (“time to first token”) en het tempo daarna sneller wordt.
Het model kan zijn eerste token niet ongedaan maken. Heeft het iets “A” geantwoord, dan zit het daaraan vast en bouwt de rest van het antwoord daar omheen — ook als A fout was. Dit is een van de mechanismes achter koppige fouten in lange antwoorden.

Werkprincipe: stop een wankel antwoord vroeg af

Als je in de eerste twee zinnen al een hallucinerend begin ziet (“Volgens hoofdstuk 5.3 van de richtlijn …”) — onderbreek en herformuleer. Doorgaan kost meer tijd en het model heeft moeite zijn eigen valse aanname terug te draaien.

Vragen bij les 2.5

9. Waarom is een fout in de eerste zin van het antwoord problematischer dan een fout halverwege?

Het model maakt een plan vooraf en past dat na de eerste zin niet meer aan.
Modellen testen kortere antwoorden vaker, dus die zitten vol fouten.
Tokens worden één voor één gegenereerd; eerdere tokens kunnen niet meer worden teruggedraaid, dus latere zinnen bouwen op de fout door.

Take-home van module 2

Drie stappen

Pre-training (taal voltooien) → SFT (vragen beantwoorden) → RLHF/DPO (voorkeuren + safety). De persoonlijkheid zit in stap 3.

RAG > medisch FT (vaak)

Voor feitelijke citaten is “bron in de prompt plakken” betrouwbaarder dan een medisch-fine-tuned model dat ‘uit zijn hoofd’ werkt.

Vraag onderaan

Context boven, vraag onderaan. Vermijd info in het midden voor lange prompts. Werkt op elk model dat een Transformer is — dus alle die je gebruikt.

← Module 1 Verder naar module 3 →