Wat is een LLM?
We beginnen bij de basis. Wat zijn die Large Language Models, hoe verschillen ze van “klassieke AI”, en waarom werkt de kerntruc — het volgende stukje tekst voorspellen — zo verbluffend goed? Aan het eind van deze module kun je in één zin uitleggen wat een LLM is, en heb je het zelf gezien in een tokenizer.
Wat ga je leren: het AI-landschap (AI → ML → DL → LLM), de kerntruc, tokens en embeddings, rekenen met betekenis, schaal en emergent behavior.
Les 1.1 — Het AI-landschap
Doel: weten waar “LLM” in het bredere AI-veld past, zodat woorden niet door elkaar lopen.
In de gangbare literatuur zit een LLM in vier geneste dozen. Van breed naar smal:
- AI
- Brede term — alles wat “intelligent gedrag” simuleert. Een schaakprogramma uit 1990 is óók AI.
- Machine Learning (ML)
- Systemen die patronen leren uit data, in plaats van expliciete regels. Risicomodellen op een grote registratie (zoals SCORE2) horen hier thuis.
- Deep Learning (DL)
- Machine Learning met diepe neurale netwerken — vele lagen, miljoenen tot miljarden afstembare parameters. Dit is waar AI-ECG en AI-echo zitten.
- LLM
- Deep Learning toegepast op taal. Getraind op enorme tekstcorpora; ChatGPT, Claude, Gemini en DeepSeek zijn hiervan publiek-toegankelijke voorbeelden.
Praktisch gevolg: als iemand zegt “we doen AI op de afdeling”, is de eerste verstandige vervolgvraag — welk laagje precies? Een hand-getuned risicomodel is iets heel anders dan een generatief tekstmodel.
Vragen bij les 1.1
1. Welke uitspraak klopt over de relatie tussen AI, ML, DL en LLM?
2. Een collega zegt: “onze afdeling gebruikt AI” en blijkt een 10-variabelen risicomodel à la SCORE2 te bedoelen. Wat is een correcte typering?
Les 1.2 — De kerntruc in één zin
Doel: dezelfde zin als ankerpunt voor alles wat volgt.
De hele werking van een LLM staat in één zin:
Drie gevolgen die de rest van de cursus blijven terugkomen:
- Het “denkt” niet — het rekent kansen uit over volgend tekstmateriaal.
- Het weet niets persoonlijks — het heeft patronen onthouden uit zijn trainingsdata, geen waarheid.
- Het hallucineert niet per ongeluk — een vloeiend, plausibel klinkend maar onjuist antwoord is precíes hoe het werkt. Daarover meer in module 5.
Waarom dit voor cardiologen ertoe doet
Een LLM kan op vraag “welke ESC-klasse heeft PET-CT bij prothetische klep-endocarditis?” een vloeiend, gestructureerd antwoord teruggeven met een fictief hoofdstuk- en tabelnummer dat niet bestaat. Niet omdat het “liegt”, maar omdat het de vorm van zo'n citaat statistisch goed kan reproduceren. Daarom is bron-leveren in plaats van bron-vragen straks het belangrijkste promptprincipe.
Vragen bij les 1.2
3. Wat is de kerntruc van een LLM?
4. Een LLM verzint een tabelnummer in een richtlijn. Hoe noem je dit het beste?
Live oefening — voel de kerntruc zelf
Open een lege chat en typ letterlijk dit (zonder verdere context):
Doel: zien dat het model woorden als “pijn”, “kortademigheid”, “duizeligheid”, “hoofdpijn” voorstelt — geen diepe medische kennis nodig, gewoon statistische frequentie in zijn trainingscorpus.
Les 1.3 — Tokens, embeddings en vectoren
Doel: weten waarom een LLM eigenlijk geen “woorden” ziet, en wat dat betekent voor je prompts.
Een LLM verwerkt geen woorden zoals jij. Hij ziet tokens — sub-woord-brokjes. “Mijn patiënt heeft last van” wordt iets als Mijn · pati · ënt · heeft · last · van — 6 tokens. Elk token wordt vervolgens vertaald naar een vector: een lijst van duizenden getallen (in GPT-4-klasse modellen ~12.288 dimensies) die “iets” over dat token vastleggen.
De truc van training: het model leert deze vectoren zó kiezen dat tokens met vergelijkbare betekenis dicht bij elkaar liggen in de hoog-dimensionale ruimte. “Borstpijn”, “angina” en “thoracale klachten” komen daardoor in elkaars buurt — zonder dat iemand dat ooit expliciet heeft ingevoerd. Dat heet een embedding.
Praktisch gevolg voor jou
Synoniemen werken vaak goed: je hoeft niet exact te schrijven “ST-elevatie” als je “ST-segmentstijging” bedoelt. Maar: zeer zeldzame Nederlandse vakterminologie of recent geïntroduceerde afkortingen kunnen in de vectorruimte juist geïsoleerd staan — dan dwaalt het antwoord af.
Vragen bij les 1.3
5. Wat is de kleinste eenheid waarmee een LLM intern rekent?
6. Waarom “begrijpt” ChatGPT meestal dat borstpijn en angina hetzelfde domein delen?
Live oefening — zie de tokens
Open de tokenizer-tool van OpenAI op platform.openai.com/tokenizer (gratis, geen account nodig voor een proef) of laat het model het zelf doen:
Doel: opvallen dat “retrosternale” en “ST-elevaties” in meerdere tokens uiteen kunnen vallen — daarom kunnen typfouten in zulke termen het antwoord soms verrassend uit balans halen.
Les 1.4 — Rekenen met betekenis
Doel: snappen waarom semantisch zoeken en RAG werken (komt terug in module 2).
Omdat tokens vectoren zijn, kun je er met basisrekenkunde mee spelen. De klassieker uit 2013: koning − man + vrouw ≈ koningin. Het werkt ook medisch: cardioloog − hart + hersenen ≈ neuroloog. Wat in de echte wereld een relatie is, blijkt in de vectorruimte een richting.
Drie praktische toepassingen, die straks in module 2 terugkomen:
- Semantisch zoeken. Zoekvraag “borstklachten” vindt ook documenten met “thoracale pijn” — zonder dat je dat synoniem ingaf.
- RAG-pipelines. Documenten (richtlijnen, dossiers) worden in een vector-database opgeslagen. Bij een vraag plakt het systeem de meest relevante stukken in de prompt — voor de LLM die antwoord geeft.
- “Chat met je PDF”. De technologie achter “vraag het je ESC-richtlijn” of “praat met deze studie”.
Vragen bij les 1.4
7. Wat is “RAG” in een zin?
Les 1.5 — Schaal en emergent behavior
Doel: snappen waarom het zo extreem goed werkt vergeleken met 10 jaar geleden.
Drie ordes van grootte groter dan tien jaar geleden, dat is wat de huidige generatie LLMs anders maakt:
Het verrassende gevolg heet emergent behavior: bij voldoende schaal duiken vaardigheden op die niemand expliciet heeft geprogrammeerd. Vertalen tussen 100+ talen, eenvoudige redeneerstappen, code schrijven, klinische casussen samenvatten — niets daarvan staat letterlijk in de trainingsinstructie.
Wat dat voor jou betekent
Wat vorig jaar “net niet” was, is dit jaar vaak wél bruikbaar. GPT-3 (2020) faalde op MedQA. GPT-4 (2023): boven slagingspercentage van de USMLE. Modellen in 2025–2026: 95%+ op vergelijkbare academische examens. Verwacht dat de norm verschuift — en blijf zelf opnieuw testen, ook met use cases waarvan je vorig jaar dacht: te complex.
Vragen bij les 1.5
8. Wat bedoelen onderzoekers met “emergent behavior” bij LLMs?
9. Wat is een verstandige werkhouding richting nieuwe LLM-versies?
Live oefening — emergent behavior zelf opmerken
Geef een complexe meervoudige taak die niemand expliciet aan het model heeft “geleerd”. Plak deze prompt:
Doel: opmerken dat het model én een correcte tabel kan maken én op meta-niveau over zijn eigen onzekerheid kan reflecteren — beide vaardigheden waren bij GPT-3 (2020) onmogelijk.
Take-home van module 1
1. Eén regel
Een LLM voorspelt het meest waarschijnlijke volgende stukje tekst. Het denkt niet, weet niets, maar imiteert taal verbluffend goed.
2. Vectoren
Tokens worden vectoren; synoniemen liggen dicht bij elkaar. Dat is waarom het “begrijpt” — en waarom RAG werkt.
3. Schaal
Wat vorig jaar niet werkte, kan dit jaar wél werken. Test je use cases regelmatig opnieuw. Maar blijf zelf de safety layer.