Module 1 · fundament

Wat is een LLM?

We beginnen bij de basis. Wat zijn die Large Language Models, hoe verschillen ze van “klassieke AI”, en waarom werkt de kerntruc — het volgende stukje tekst voorspellen — zo verbluffend goed? Aan het eind van deze module kun je in één zin uitleggen wat een LLM is, en heb je het zelf gezien in een tokenizer.

Wat ga je leren: het AI-landschap (AI → ML → DL → LLM), de kerntruc, tokens en embeddings, rekenen met betekenis, schaal en emergent behavior.

Les 1.1 — Het AI-landschap

Doel: weten waar “LLM” in het bredere AI-veld past, zodat woorden niet door elkaar lopen.

In de gangbare literatuur zit een LLM in vier geneste dozen. Van breed naar smal:

AI
Brede term — alles wat “intelligent gedrag” simuleert. Een schaakprogramma uit 1990 is óók AI.
Machine Learning (ML)
Systemen die patronen leren uit data, in plaats van expliciete regels. Risicomodellen op een grote registratie (zoals SCORE2) horen hier thuis.
Deep Learning (DL)
Machine Learning met diepe neurale netwerken — vele lagen, miljoenen tot miljarden afstembare parameters. Dit is waar AI-ECG en AI-echo zitten.
LLM
Deep Learning toegepast op taal. Getraind op enorme tekstcorpora; ChatGPT, Claude, Gemini en DeepSeek zijn hiervan publiek-toegankelijke voorbeelden.

Praktisch gevolg: als iemand zegt “we doen AI op de afdeling”, is de eerste verstandige vervolgvraag — welk laagje precies? Een hand-getuned risicomodel is iets heel anders dan een generatief tekstmodel.

Vragen bij les 1.1

1. Welke uitspraak klopt over de relatie tussen AI, ML, DL en LLM?

2. Een collega zegt: “onze afdeling gebruikt AI” en blijkt een 10-variabelen risicomodel à la SCORE2 te bedoelen. Wat is een correcte typering?

Les 1.2 — De kerntruc in één zin

Doel: dezelfde zin als ankerpunt voor alles wat volgt.

De hele werking van een LLM staat in één zin:

De kerntruc
Een LLM is een statistisch model dat het meest waarschijnlijke volgende stukje tekst voorspelt, gegeven alles wat ervoor staat.

Drie gevolgen die de rest van de cursus blijven terugkomen:

  • Het “denkt” niet — het rekent kansen uit over volgend tekstmateriaal.
  • Het weet niets persoonlijks — het heeft patronen onthouden uit zijn trainingsdata, geen waarheid.
  • Het hallucineert niet per ongeluk — een vloeiend, plausibel klinkend maar onjuist antwoord is precíes hoe het werkt. Daarover meer in module 5.

Waarom dit voor cardiologen ertoe doet

Een LLM kan op vraag “welke ESC-klasse heeft PET-CT bij prothetische klep-endocarditis?” een vloeiend, gestructureerd antwoord teruggeven met een fictief hoofdstuk- en tabelnummer dat niet bestaat. Niet omdat het “liegt”, maar omdat het de vorm van zo'n citaat statistisch goed kan reproduceren. Daarom is bron-leveren in plaats van bron-vragen straks het belangrijkste promptprincipe.

Vragen bij les 1.2

3. Wat is de kerntruc van een LLM?

4. Een LLM verzint een tabelnummer in een richtlijn. Hoe noem je dit het beste?

Live oefening — voel de kerntruc zelf

Open een lege chat en typ letterlijk dit (zonder verdere context):

Maak deze zin af, zo natuurlijk mogelijk in medische context: “Mijn patiënt heeft last van …”. Geef daarna 5 mogelijke vervolgwoorden met geschatte waarschijnlijkheid (alleen indicatief).

Doel: zien dat het model woorden als “pijn”, “kortademigheid”, “duizeligheid”, “hoofdpijn” voorstelt — geen diepe medische kennis nodig, gewoon statistische frequentie in zijn trainingscorpus.

Les 1.3 — Tokens, embeddings en vectoren

Doel: weten waarom een LLM eigenlijk geen “woorden” ziet, en wat dat betekent voor je prompts.

Een LLM verwerkt geen woorden zoals jij. Hij ziet tokens — sub-woord-brokjes. “Mijn patiënt heeft last van” wordt iets als Mijn · pati · ënt · heeft · last · van — 6 tokens. Elk token wordt vervolgens vertaald naar een vector: een lijst van duizenden getallen (in GPT-4-klasse modellen ~12.288 dimensies) die “iets” over dat token vastleggen.

De truc van training: het model leert deze vectoren zó kiezen dat tokens met vergelijkbare betekenis dicht bij elkaar liggen in de hoog-dimensionale ruimte. “Borstpijn”, “angina” en “thoracale klachten” komen daardoor in elkaars buurt — zonder dat iemand dat ooit expliciet heeft ingevoerd. Dat heet een embedding.

Praktisch gevolg voor jou

Synoniemen werken vaak goed: je hoeft niet exact te schrijven “ST-elevatie” als je “ST-segmentstijging” bedoelt. Maar: zeer zeldzame Nederlandse vakterminologie of recent geïntroduceerde afkortingen kunnen in de vectorruimte juist geïsoleerd staan — dan dwaalt het antwoord af.

Vragen bij les 1.3

5. Wat is de kleinste eenheid waarmee een LLM intern rekent?

6. Waarom “begrijpt” ChatGPT meestal dat borstpijn en angina hetzelfde domein delen?

Live oefening — zie de tokens

Open de tokenizer-tool van OpenAI op platform.openai.com/tokenizer (gratis, geen account nodig voor een proef) of laat het model het zelf doen:

Splits de volgende zin in tokens, zoals een typische LLM (zoals GPT-4) dat zou doen. Geef de lijst tokens onder elkaar genummerd: "Een 62-jarige man met retrosternale drukkende pijn uitstralend naar de linker arm, sinds 40 minuten, met ST-elevaties in II, III, aVF."

Doel: opvallen dat “retrosternale” en “ST-elevaties” in meerdere tokens uiteen kunnen vallen — daarom kunnen typfouten in zulke termen het antwoord soms verrassend uit balans halen.

Les 1.4 — Rekenen met betekenis

Doel: snappen waarom semantisch zoeken en RAG werken (komt terug in module 2).

Omdat tokens vectoren zijn, kun je er met basisrekenkunde mee spelen. De klassieker uit 2013: koning − man + vrouw ≈ koningin. Het werkt ook medisch: cardioloog − hart + hersenen ≈ neuroloog. Wat in de echte wereld een relatie is, blijkt in de vectorruimte een richting.

Drie praktische toepassingen, die straks in module 2 terugkomen:

  • Semantisch zoeken. Zoekvraag “borstklachten” vindt ook documenten met “thoracale pijn” — zonder dat je dat synoniem ingaf.
  • RAG-pipelines. Documenten (richtlijnen, dossiers) worden in een vector-database opgeslagen. Bij een vraag plakt het systeem de meest relevante stukken in de prompt — voor de LLM die antwoord geeft.
  • “Chat met je PDF”. De technologie achter “vraag het je ESC-richtlijn” of “praat met deze studie”.

Vragen bij les 1.4

7. Wat is “RAG” in een zin?

Les 1.5 — Schaal en emergent behavior

Doel: snappen waarom het zo extreem goed werkt vergeleken met 10 jaar geleden.

Drie ordes van grootte groter dan tien jaar geleden, dat is wat de huidige generatie LLMs anders maakt:

~1 biljoen+ parameters (afstembare gewichten) in GPT-4-klasse modellen (schatting)
15–30 biljoen tokens trainingsdata — vrijwel alle digitaal beschikbare tekst
~2 000 GWh per full training (≈ jaarverbruik 700 000 huishoudens)

Het verrassende gevolg heet emergent behavior: bij voldoende schaal duiken vaardigheden op die niemand expliciet heeft geprogrammeerd. Vertalen tussen 100+ talen, eenvoudige redeneerstappen, code schrijven, klinische casussen samenvatten — niets daarvan staat letterlijk in de trainingsinstructie.

Wat dat voor jou betekent

Wat vorig jaar “net niet” was, is dit jaar vaak wél bruikbaar. GPT-3 (2020) faalde op MedQA. GPT-4 (2023): boven slagingspercentage van de USMLE. Modellen in 2025–2026: 95%+ op vergelijkbare academische examens. Verwacht dat de norm verschuift — en blijf zelf opnieuw testen, ook met use cases waarvan je vorig jaar dacht: te complex.

Vragen bij les 1.5

8. Wat bedoelen onderzoekers met “emergent behavior” bij LLMs?

9. Wat is een verstandige werkhouding richting nieuwe LLM-versies?

Live oefening — emergent behavior zelf opmerken

Geef een complexe meervoudige taak die niemand expliciet aan het model heeft “geleerd”. Plak deze prompt:

Maak een tabel met drie kolommen: (1) klinisch symptoom, (2) cardiale differentiële diagnose top 3, (3) niet-cardiale “mimics” top 2. Symptomen: - acute thoracale pijn - syncope tijdens inspanning - nieuw atriumfibrilleren bij een 35-jarige Geef daarna in 3 zinnen aan welke van deze drie symptomen jij het minst zeker over jezelf vindt, en waarom. Voeg geen disclaimer toe — beschouw dit als een onderwijsoefening voor een cardioloog.

Doel: opmerken dat het model én een correcte tabel kan maken én op meta-niveau over zijn eigen onzekerheid kan reflecteren — beide vaardigheden waren bij GPT-3 (2020) onmogelijk.

Take-home van module 1

1. Eén regel

Een LLM voorspelt het meest waarschijnlijke volgende stukje tekst. Het denkt niet, weet niets, maar imiteert taal verbluffend goed.

2. Vectoren

Tokens worden vectoren; synoniemen liggen dicht bij elkaar. Dat is waarom het “begrijpt” — en waarom RAG werkt.

3. Schaal

Wat vorig jaar niet werkte, kan dit jaar wél werken. Test je use cases regelmatig opnieuw. Maar blijf zelf de safety layer.