Module 1 – Wat is een LLM? · AI voor cardiologen

Module 1 · fundament

Wat is een LLM?

We beginnen bij de basis. Wat zijn die Large Language Models, hoe verschillen ze van “klassieke AI”, en waarom werkt de kerntruc — het volgende stukje tekst voorspellen — zo verbluffend goed? Aan het eind van deze module kun je in één zin uitleggen wat een LLM is, en heb je het zelf gezien in een tokenizer.

Wat ga je leren: het AI-landschap (AI → ML → DL → LLM), de kerntruc, tokens en embeddings, rekenen met betekenis, schaal en emergent behavior.

Les 1.1 — Het AI-landschap

Doel: weten waar “LLM” in het bredere AI-veld past, zodat woorden niet door elkaar lopen.

In de gangbare literatuur zit een LLM in vier geneste dozen. Van breed naar smal:

AI: Brede term — alles wat “intelligent gedrag” simuleert. Een schaakprogramma uit 1990 is óók AI.
Machine Learning (ML): Systemen die patronen leren uit data, in plaats van expliciete regels. Risicomodellen op een grote registratie (zoals SCORE2) horen hier thuis.
Deep Learning (DL): Machine Learning met diepe neurale netwerken — vele lagen, miljoenen tot miljarden afstembare parameters. Dit is waar AI-ECG en AI-echo zitten.
LLM: Deep Learning toegepast op taal. Getraind op enorme tekstcorpora; ChatGPT, Claude, Gemini en DeepSeek zijn hiervan publiek-toegankelijke voorbeelden.

Praktisch gevolg: als iemand zegt “we doen AI op de afdeling”, is de eerste verstandige vervolgvraag — welk laagje precies? Een hand-getuned risicomodel is iets heel anders dan een generatief tekstmodel.

Vragen bij les 1.1

1. Welke uitspraak klopt over de relatie tussen AI, ML, DL en LLM?

Een LLM is hetzelfde als AI in het algemeen.
Een LLM is een specifieke vorm van Deep Learning, toegepast op taal.
Machine Learning vereist altijd een diep neuraal netwerk.

2. Een collega zegt: “onze afdeling gebruikt AI” en blijkt een 10-variabelen risicomodel à la SCORE2 te bedoelen. Wat is een correcte typering?

Dat is een LLM — alle AI in de zorg is tegenwoordig generatief.
Dat is dom; een echte AI heeft minstens 1 miljard parameters.
Dat is klassieke Machine Learning; geen generatief taalmodel.

Les 1.2 — De kerntruc in één zin

Doel: dezelfde zin als ankerpunt voor alles wat volgt.

De hele werking van een LLM staat in één zin:

De kerntruc

Een LLM is een statistisch model dat het meest waarschijnlijke volgende stukje tekst voorspelt, gegeven alles wat ervoor staat.

Drie gevolgen die de rest van de cursus blijven terugkomen:

Het “denkt” niet — het rekent kansen uit over volgend tekstmateriaal.
Het weet niets persoonlijks — het heeft patronen onthouden uit zijn trainingsdata, geen waarheid.
Het hallucineert niet per ongeluk — een vloeiend, plausibel klinkend maar onjuist antwoord is precíes hoe het werkt. Daarover meer in module 5.

Waarom dit voor cardiologen ertoe doet

Een LLM kan op vraag “welke ESC-klasse heeft PET-CT bij prothetische klep-endocarditis?” een vloeiend, gestructureerd antwoord teruggeven met een fictief hoofdstuk- en tabelnummer dat niet bestaat. Niet omdat het “liegt”, maar omdat het de vorm van zo'n citaat statistisch goed kan reproduceren. Daarom is bron-leveren in plaats van bron-vragen straks het belangrijkste promptprincipe.

Vragen bij les 1.2

3. Wat is de kerntruc van een LLM?

Het zoekt het antwoord op in een live database en geeft het netjes terug.
Het voorspelt het meest waarschijnlijke volgende stukje tekst, gegeven alles wat ervoor staat.
Het “begrijpt” je vraag op semantisch niveau zoals een mens.

4. Een LLM verzint een tabelnummer in een richtlijn. Hoe noem je dit het beste?

Een softwarefout (bug) die OpenAI snel gaat verhelpen.
Het model is “boos” en saboteert opzettelijk je vraag.
Een hallucinatie — een statistisch plausibel vervolg dat toevallig niet waar is. Eigen aan de werking.

Live oefening — voel de kerntruc zelf

Open een lege chat en typ letterlijk dit (zonder verdere context):

Maak deze zin af, zo natuurlijk mogelijk in medische context: “Mijn patiënt heeft last van …”. Geef daarna 5 mogelijke vervolgwoorden met geschatte waarschijnlijkheid (alleen indicatief).

Open in ChatGPT ↗ Open in Claude ↗

Doel: zien dat het model woorden als “pijn”, “kortademigheid”, “duizeligheid”, “hoofdpijn” voorstelt — geen diepe medische kennis nodig, gewoon statistische frequentie in zijn trainingscorpus.

Les 1.3 — Tokens, embeddings en vectoren

Doel: weten waarom een LLM eigenlijk geen “woorden” ziet, en wat dat betekent voor je prompts.

Een LLM verwerkt geen woorden zoals jij. Hij ziet tokens — sub-woord-brokjes. “Mijn patiënt heeft last van” wordt iets als Mijn · pati · ënt · heeft · last · van — 6 tokens. Elk token wordt vervolgens vertaald naar een vector: een lijst van duizenden getallen (in GPT-4-klasse modellen ~12.288 dimensies) die “iets” over dat token vastleggen.

De truc van training: het model leert deze vectoren zó kiezen dat tokens met vergelijkbare betekenis dicht bij elkaar liggen in de hoog-dimensionale ruimte. “Borstpijn”, “angina” en “thoracale klachten” komen daardoor in elkaars buurt — zonder dat iemand dat ooit expliciet heeft ingevoerd. Dat heet een embedding.

Praktisch gevolg voor jou

Synoniemen werken vaak goed: je hoeft niet exact te schrijven “ST-elevatie” als je “ST-segmentstijging” bedoelt. Maar: zeer zeldzame Nederlandse vakterminologie of recent geïntroduceerde afkortingen kunnen in de vectorruimte juist geïsoleerd staan — dan dwaalt het antwoord af.

Vragen bij les 1.3

5. Wat is de kleinste eenheid waarmee een LLM intern rekent?

Hele zinnen.
Tokens (sub-woord-brokjes).
Losse letters.

6. Waarom “begrijpt” ChatGPT meestal dat borstpijn en angina hetzelfde domein delen?

Omdat hun vectoren in de hoog-dimensionale ruimte dicht bij elkaar liggen door de manier van trainen.
Omdat OpenAI handmatig een synoniemenlijst heeft toegevoegd.
Toeval — beide woorden komen toevallig vaak voor.

Live oefening — zie de tokens

Open de tokenizer-tool van OpenAI op platform.openai.com/tokenizer (gratis, geen account nodig voor een proef) of laat het model het zelf doen:

Splits de volgende zin in tokens, zoals een typische LLM (zoals GPT-4) dat zou doen. Geef de lijst tokens onder elkaar genummerd: "Een 62-jarige man met retrosternale drukkende pijn uitstralend naar de linker arm, sinds 40 minuten, met ST-elevaties in II, III, aVF."

Open in ChatGPT ↗ Open in Claude ↗

Doel: opvallen dat “retrosternale” en “ST-elevaties” in meerdere tokens uiteen kunnen vallen — daarom kunnen typfouten in zulke termen het antwoord soms verrassend uit balans halen.

Les 1.4 — Rekenen met betekenis

Doel: snappen waarom semantisch zoeken en RAG werken (komt terug in module 2).

Omdat tokens vectoren zijn, kun je er met basisrekenkunde mee spelen. De klassieker uit 2013: koning − man + vrouw ≈ koningin. Het werkt ook medisch: cardioloog − hart + hersenen ≈ neuroloog. Wat in de echte wereld een relatie is, blijkt in de vectorruimte een richting.

Drie praktische toepassingen, die straks in module 2 terugkomen:

Semantisch zoeken. Zoekvraag “borstklachten” vindt ook documenten met “thoracale pijn” — zonder dat je dat synoniem ingaf.
RAG-pipelines. Documenten (richtlijnen, dossiers) worden in een vector-database opgeslagen. Bij een vraag plakt het systeem de meest relevante stukken in de prompt — voor de LLM die antwoord geeft.
“Chat met je PDF”. De technologie achter “vraag het je ESC-richtlijn” of “praat met deze studie”.

Vragen bij les 1.4

7. Wat is “RAG” in een zin?

Een techniek om een model te her-trainen op extra data.
Het systeem zoekt relevante documenten op en plakt ze in de prompt vóórdat het model antwoord genereert.
Een veiliger versie van ChatGPT, met meer parameters.

Les 1.5 — Schaal en emergent behavior

Doel: snappen waarom het zo extreem goed werkt vergeleken met 10 jaar geleden.

Drie ordes van grootte groter dan tien jaar geleden, dat is wat de huidige generatie LLMs anders maakt:

~1 biljoen+ parameters (afstembare gewichten) in GPT-4-klasse modellen (schatting)

15–30 biljoen tokens trainingsdata — vrijwel alle digitaal beschikbare tekst

~2 000 GWh per full training (≈ jaarverbruik 700 000 huishoudens)

Het verrassende gevolg heet emergent behavior: bij voldoende schaal duiken vaardigheden op die niemand expliciet heeft geprogrammeerd. Vertalen tussen 100+ talen, eenvoudige redeneerstappen, code schrijven, klinische casussen samenvatten — niets daarvan staat letterlijk in de trainingsinstructie.

Wat dat voor jou betekent

Wat vorig jaar “net niet” was, is dit jaar vaak wél bruikbaar. GPT-3 (2020) faalde op MedQA. GPT-4 (2023): boven slagingspercentage van de USMLE. Modellen in 2025–2026: 95%+ op vergelijkbare academische examens. Verwacht dat de norm verschuift — en blijf zelf opnieuw testen, ook met use cases waarvan je vorig jaar dacht: te complex.

Vragen bij les 1.5

8. Wat bedoelen onderzoekers met “emergent behavior” bij LLMs?

Het moment dat een model bewustzijn krijgt.
Wanneer een model door fine-tuning beter wordt in één specifiek domein.
Vaardigheden die bij voldoende schaal opduiken zonder dat ze expliciet zijn geprogrammeerd.

9. Wat is een verstandige werkhouding richting nieuwe LLM-versies?

Use cases die je vorig jaar afschreef regelmatig opnieuw testen.
Eén keer evalueren en daarna jaren ongemoeid laten — modellen veranderen toch nauwelijks.
Direct alles wat het model voorstelt overnemen — schaal heeft betrouwbaarheid afgedwongen.

Live oefening — emergent behavior zelf opmerken

Geef een complexe meervoudige taak die niemand expliciet aan het model heeft “geleerd”. Plak deze prompt:

Maak een tabel met drie kolommen: (1) klinisch symptoom, (2) cardiale differentiële diagnose top 3, (3) niet-cardiale “mimics” top 2. Symptomen: - acute thoracale pijn - syncope tijdens inspanning - nieuw atriumfibrilleren bij een 35-jarige Geef daarna in 3 zinnen aan welke van deze drie symptomen jij het minst zeker over jezelf vindt, en waarom. Voeg geen disclaimer toe — beschouw dit als een onderwijsoefening voor een cardioloog.

Open in ChatGPT ↗ Open in Claude ↗

Doel: opmerken dat het model én een correcte tabel kan maken én op meta-niveau over zijn eigen onzekerheid kan reflecteren — beide vaardigheden waren bij GPT-3 (2020) onmogelijk.

Take-home van module 1

1. Eén regel

Een LLM voorspelt het meest waarschijnlijke volgende stukje tekst. Het denkt niet, weet niets, maar imiteert taal verbluffend goed.

2. Vectoren

Tokens worden vectoren; synoniemen liggen dicht bij elkaar. Dat is waarom het “begrijpt” — en waarom RAG werkt.

3. Schaal

Wat vorig jaar niet werkte, kan dit jaar wél werken. Test je use cases regelmatig opnieuw. Maar blijf zelf de safety layer.

← Overzicht Verder naar module 2 →