22  Kansen en kansmodellen

In de eerdere hoofdstukken hebben we benadrukt dat bijna alle biologische gegevens onzeker zijn. Soms komt dat door meetfouten, soms doordat de gegevens schattingen zijn op basis van een steekproef. Het is daarom heel belangrijk om te begrijpen wat je wel of niet kunt concluderen uit zulke onzekere gegevens. Daarvoor zul je om moeten gaan met kansen (probabilities). In dit hoofdstuk geven we een korte introductie in kansrekenen, of met een mooi klassiek woord de waarschijnlijkheidsleer.

We beginnen met een paar belangrijk begrippen.

22.1 Basisbegrippen

Wanneer je met een gewone dobbelsteen gooit, weet je van tevoren niet welk getal boven komt te liggen. Zo’n experiment, gebeurtenis of proces met een onzekere uitkomst wordt een kansexperiment (random experiment) genoemd. Andere voorbeelden zijn het willekeurig trekken van een individu uit een populatie, een draai aan het roulette-wiel, of het aantal mutaties in een genoom als gevolg van DNA-schade na blootstelling aan UV licht.

Een kansvariabele (random variable) is een variabele waarvan de waarde een functie is van de uitkomst van een kansexperiment. Een voorbeeld is het aantal ogen van een dobbelsteen, of het kwadraat van het aantal ogen van een dobbelsteen. Andere woorden voor kansvariabele zijn stochastische variabele (stochastic variable) of stochast. Een kansvariabele wordt meestal aangeduid met een hoofdletter, zoals \(X\) of \(Y\).

Eerder hebben we verschillende typen variabelen besproken, zoals continu, discreet, nominaal en ordinaal (zie Figuur 20.1). Kansvariabelen kunnen op dezelfde manier worden ingedeeld.

De verzameling van alle mogelijke uitkomsten van een kansexperiment wordt de kansruimte (sample space) genoemd. Bij een normale dobbelsteen is de kansruimte de verzameling \[ \left\{ 1, 2, 3, 4, 5, 6 \right\}. \]

Soms zijn we geïnteresseerd in de kans op een specifieke uitkomst. De kans dat de uitkomst gelijk is aan 2 noteren we als \(\textrm{Pr}\!\left[X = 2\right]\). (De letters Pr staan hier voor Probability.)

In andere gevallen willen we weten wat de kans is op een bepaalde gebeurtenis (event). Een gebeurtenis hoeft niet één specifieke uitkomst te zijn. Bijvoorbeeld, laat \(X\) het aantal ogen zijn bij een worp met een dobbelsteen. Dan kunnen we vragen naar de kans dat \(X\) een oneven getal is: \[ \textrm{Pr}\!\left[X \textrm{ is oneven}\right]. \]\(X\) is oneven” is een gebeurtenis, maar niet één specifieke uitkomst, omdat meerdere mogelijke uitkomsten oneven zijn (namelijk 1, 3, en 5). Merk op dat we dezelfde gebeurtenis ook zo hadden kunnen schrijven: “\(X\) is een element van de verzameling \(\left\{1, 3, 5\right\}\).” Iedere gebeurtenis kan dus worden geïdentificeerd met een deelverzameling van de kansruimte.

Oefening 22.1 (Basisbegrippen van kansrekenen)

Identificeer van de volgende situaties het kansexperiment, de kansvariabele, de kansruimte, en de gebeurtenis waarin we geïnteresseerd zijn.

  1. We kruisen twee heterozygote dieren (genotype aA) en onderzoeken de kans dat een nakomeling homozygoot recessief (aa) is.

  2. We tellen het aantal teken aangetroffen op reeën in een bepaald bosgebied en vragen ons af hoe vaak we er minstens één aantreffen.

  3. We willen weten hoe vaak na vaccinatie trombose met trombocytopenie-syndroom (TTS) optreedt. Daarom houden we van alle gevaccineerde personen bij of TTS is opgetreden.

  4. Om de omvang te schatten van de brasem-populatie in het IJsselmeer en Markermeer willen we 2000 brasems vangen, merken, en weer teruggooien. Twee maanden later willen we er weer 2000 vangen en tellen hoeveel van deze vissen gemarkeerd zijn. We vragen ons af wat de kans is dat we geen enkele gemarkeerde brasem terugvangen als de populatiegrootte \(1{,}5\cdot 10^5\) is.

22.2 Kansen als frequenties van een lange serie identieke kansexperimenten

Wat is een kans nu eigenlijk precies? Deze vraag is eigenlijk veel moeilijker dan je zou denken. Je kunt kansen op verschillende manieren definiëren, en de aanhangers van verschillende “kansinterpretaties” maken hier al zeker een eeuw ruzie over. (Als dit je interesse wekt, is dit artikel een goede ingang tot de uitgebreide literatuur.) Voor veel berekeningen maken de definitieverschillen niet veel uit, en daarom gebruiken we de interpretatie die traditioneel in de statistiek het meest gebruikt wordt: de frequentistische (frequentist) interpretatie.

In de frequentistische interpretatie is de kans op een gebeurtenis gedefinieerd als de relatieve frequentie waarmee die gebeurtenis voorkomt in een héél lange reeks identieke kansexperimenten. Stel dat je steeds weer op dezelfde manier dezelfde dobbelsteen gooit. Neem even aan dat de dobbelsteen helemaal eerlijk is. Dan zou je verwachten dat, op de lange duur, een zesde van de uitkomsten 6 zal zijn. De relatieve frequentie van de uitkomst 6 in een héél lange reeks identieke kansexperimenten is dus \(\frac{1}{6}\). Daarom is de kans \(\textrm{Pr}\!\left[X = 6\right]\) gelijk aan \(\frac{1}{6}\).

De definitie heeft het over een héél lange reeks kansexperimenten. Hoe lang dan precies? Is een miljoen keer genoeg? Of een miljard? Zolang het aantal keer dat je met de dobbelsteen gooit eindig is, blijft het mogelijk (en zelfs waarschijnlijk) dat de daadwerkelijke frequentie van zessen afwijkt van \(\frac{1}{6}\). De frequentistische definitie van kansen gaat dus uit van een reeks kansexperimenten die tot in het oneindige wordt herhaald; alleen dan zal de frequentie van zessen met zekerheid convergeren naar \(\frac{1}{6}\).

Oefening 22.2 (De relatieve frequentie van 6 bij het gooien van een dobbelsteen)

In de tekst hierboven hebben we het over heel-erg-vaak gooien met een dobbelsteen. In de praktijk is dat lastig om te doen. Maar we kunnen dat natuurlijk wel simuleren!

Deze code in R gooit virtueel een miljoen keer een eerlijke dobbelsteen:

aantal_keer_gooien <- 10^6

resultaten <- sample(
  seq(1:6), # kies uit 1 tot 6
  size = aantal_keer_gooien, 
  replace = TRUE
  )

Het argument replace = TRUE zorgt ervoor dat we trekken “met terugleggen”, waardoor we meerdere keren hetzelfde getal kunnen trekken.

  1. Maak in R een frequentietabel van de resultaten. Je hebt in Paragraaf 20.13.3 geleerd hoe dat moet; het is één regeltje code. Bereken ook de relatieve frequenties.

  2. Bekijk hoe vaak je een 6 hebt gegooid. Komt dat exact overeen met een kans van \(\frac{1}{6}\)?

  3. Wat is de kans dat de relatieve frequentie van de uitkomst “6” na een miljoen herhalingen exact gelijk is aan \(\frac{1}{6}\)?

Een relatieve frequentie ligt altijd tussen 0 en 1 (inclusief 0 en 1). Een kans is dus ook altijd een getal tussen 0 en 1. Als een gebeurtenis plaatsvindt iedere keer dat we het kansexperiment uitvoeren, dan is de kans op die gebeurtenis 1. Als een gebeurtenis nooit gebeurt, hoe vaak we het kansexperiment ook uitvoeren, dan is de kans op die gebeurtenis 0.

Soms worden kansen in percentages uitgedrukt. Men zegt dan bijvoorbeeld bij het gooien van een munt dat de kans op “kop” 50% is. Daar is op zich niets mis mee. Maar het heeft eigenlijk ook geen voordelen, en wiskundige formules met procenten erin worden al snel omslachtig. Wij houden het dus zoveel mogelijk bij getallen tussen 0 en 1.

Als de kansvariabele discreet is of categorisch, dan kunnen we de kansen van alle mogelijke uitkomsten optellen. Omdat de som van alle relatieve frequenties altijd gelijk is aan 1 moet de som van de kansen op alle uitkomsten ook altijd 1 zijn.

Warning 22.1: De som van alle kansen bij continue kansvariabelen

Bij discrete en categoriale kansvariabelen is de som van de kansen op de verschillende uitkomsten altijd gelijk aan 1: \[ \sum_x \textrm{Pr}\!\left[X = x\right] = 1 \] Hierbij loopt de som over alle mogelijke waarden van \(x\), oftewel, de hele kansruimte.

Bij continue variabelen geldt ook zoiets, maar daar is alles wat ingewikkelder. Continue kansvariabelen hebben oneindig veel mogelijke uitkomsten, en bovendien is de kans op iedere mogelijke uitkomst meestal oneindig klein. Je kunt dus niet zomaar “alle kansen optellen”. Dat maakt dat je over continue kansvariabelen op een speciale manier moet nadenken. We komen daar later op terug.

22.3 Het toepassen van kansrekenen vereist altijd een model

Altijd als je kansrekenen wilt toepassen in de werkelijke wereld zul je aannames moeten maken over het kansexperiment waarover je kansberekeningen wilt maken. Die aannames vormen samen een model van dat kansexperiment. Voor dit type model wordt ook wel de naam kansmodel gebruikt.

Bijvoorbeeld, stel dat je op het punt staat een dobbelsteen te gooien en geïnteresseerd bent in de kans op een 6. Je hebt de dobbelsteen in een normale spelletjeswinkel gekocht (niet op www.gekkedobbelstenen.nl); de dobbelsteen heeft een mooie symmetrische kubusvorm; zijn oppervlak is overal glad; en zo te voelen is het gewicht goed verdeeld. Bovendien neem je je voor om de dobbelsteen voor het gooien goed te schudden en tijdens het gooien je ogen dicht te houden.

Wat is dan een redelijk model?

Gezien de symmetrische vorm van de dobbelsteen en de manier waarop je gooit is er geen reden om te verwachten dat de kansen van de verschillende uitkomsten verschillen. Daarom neem je aan dat de kans op iedere uitkomst \(\frac{1}{6}\) is, en dus ook dat \(\textrm{Pr}\!\left[X = 6\right] =\frac{1}{6}\).

Het toepassen van kansrekenen is dus altijd een vorm van modelleren, zelfs in het simpele geval van een dobbelsteen. Dat de kans op een 6 gelijk is aan \(\frac{1}{6}\) is geen feit, maar volgt uit aannames die je maakt op basis van kennis over de dobbelsteen en je manier van gooien. Als blijkt dat die aannames niet juist zijn, bijvoorbeeld doordat een kant van de dobbelsteen niet recht is afgezaagd, geeft het model geen betrouwbare voorspellingen.

22.4 Venn-diagrammen

Bij het redeneren over kansen helpt het soms om de kansruimte en de gebeurtenissen weer te geven in een zogenaamd Venn-diagram.

We kunnen ons de verzameling van alle mogelijke uitkomsten (de kansruimte) voorstellen als een groot rechthoek (Figuur 22.1):

Code
if (!("ggplot2" %in% .packages())){ 
  library(ggplot2) 
  }
if (!("ggforce" %in% .packages())){ 
  library(ggforce) 
  }

kleurKansruimte <- "FloralWhite"

kansruimte <- ggplot() +  
  geom_rect(
    aes(xmin = 0, ymin = 0, xmax= 100, ymax = 100),
    fill = kleurKansruimte, color = "black", linewidth = .8
    ) +
  annotate(
    "text", 
    x = 2, y = 94, 
    label = "kansruimte", 
    color = "black", 
    hjust = 0, 
    size = 5
    ) +
  theme_void()

kansruimte
Figuur 22.1: Een minimaal Venn-diagram. Het rechthoek stelt de volledige kansruimte voor.

Bijvoorbeeld, bij het gooien met één dobbelsteen stelt de rechthoek de verzameling voor van alle mogelijke uitkomsten, dus \(\{1, 2, 3, 4, 5, 6\}\).

We zagen dat iedere gebeurtenis kan worden gerepresenteerd als een deelverzameling van de kansruimte. We kunnen een gebeurtenis \(A\) daarom voorstellen als een gedeelte van de kansruimte, hieronder in Figuur 22.2 weergegeven als een gele cirkel:

Code
kleurA <- "Gold"

A <- list(
  geom_ellipse(
    aes(x0 = 34, y0 = 47, a = 28,  b = 40,  angle = 0), 
    fill = kleurA , alpha = 0.7, linewidth = .8
    ),
  annotate(
    "text", 
    x = 25, y = 45, 
    label = expression(italic(A)), 
    color = "black", 
    hjust = 0, 
    size = 5
    )
  )

kansruimte + A
Figuur 22.2: Venn-diagram met gebeurtenis \(A\). Een gebeurtenis is een deelverzameling van de kansruimte.

De uitkomsten die binnen de cirkel vallen zijn de uitkomsten waarbij gebeurtenis \(A\) plaatsvindt. De uitkomsten die buiten de cirkel vallen zijn de uitkomsten waarbij de gebeurtenis \(A\) niet plaatsvindt. Bijvoorbeeld, als \(A\) de gebeurtenis is dat we een even getal gooien, dan vinden we de uitkomsten \(\{2, 4, 6\}\) binnen de cirkel, en de uitkomsten \(\{1, 3, 5\}\) erbuiten.

De kans op een uitkomst die binnen de rechthoek (kansruimte) valt, is 1. Dit plaatje maakt het gelijk duidelijk dat de kans op \(A\) en de kans op niet \(A\) altijd optellen tot 1: \[\textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[\text{niet } A\right] = 1.\] Daaruit volgt de complementregel: \[ \textrm{Pr}\!\left[A\right] = 1 - \textrm{Pr}\!\left[ \text{niet } A\right]. \tag{22.1}\]

De gebeurtenis “\(A\) en \(B\)

We kunnen ook meerdere gebeurtenissen in één diagram weergeven. Hieronder in Figuur 22.3 zie je bijvoorbeeld een Venn-diagram met gebeurtenissen \(A\) en \(B\):

Code
kleurB <- "DodgerBlue"

B <- list( 
  geom_ellipse(
    aes(x0 = 66, y0 = 47, a = 28,  b = 40,  angle = 0), 
    fill = kleurB, alpha = 0.75, linewidth = .8
    ),
  annotate(
    "text", 
    x = 75, y = 45, 
    label = expression(italic(B)), 
    color = "black", 
    hjust = 0, 
    size = 5
    )
)

labelAenB <- annotate(
  "text",
  x = 50, y = 50, 
  label = expression(italic(A) ~ "en" ~ italic(B)),
  color = "black",
  size = 5
)

(AB <- kansruimte + A + B + labelAenB)
Figuur 22.3: Venn-diagram met twee gebeurtenissen: \(A\) en \(B\).

In dit geval overlappen de twee cirkels elkaar. Dit betekent dat er uitkomsten zijn waarbij \(A\) en \(B\) allebei plaatsvinden.

Het deel van het Venn diagram waar \(A\) en \(B\) overlappen — het cyaan/groenige gedeelte — is zelf óók een gebeurtenis; we noemen dit de gebeurtenis “\(A\) en \(B\)”. In de praktijk zijn we heel vaak geïnteresseerd in de kans dat de gebeurtenis “\(A\) en \(B\)” plaats vindt, \(\textrm{Pr}\!\left[A \text{ en } B\right]\). Denk aan de kans dat een willekeurig persoon zowel COPD heeft (een chronische longaandoening) en rookt, of de kans dat op hetzelfde moment springvloed én noordwesterstorm samenkomen.

Oefening 22.3 (Overlappende gebeurtenissen \(A\) en \(B\), deel 1)

Je gooit één keer met een dobbelsteen. De kansvariabele \(X\) is de uitkomst van dit kansexperiment. We definiëren de volgend gebeurtenissen:

  • Gebeurtenis \(A\) is “\(X\) is oneven”,

  • Gebeurtenis \(B\) is “\(X\) is groter dan 4”.

Gebruik die definities bij de volgende vragen,

  1. Teken Figuur 22.3 na op papier. (Inkleuren hoeft niet.)

  2. Bepaal voor elke mogelijke uitkomst (1 tot 6) in welk deel van het Venn-diagram het thuishoort, en schrijf het daarin.

  3. Is er een uitkomst waarbij \(A\) en \(B\) beide plaatsvinden?

  4. Neem aan dat de dobbelsteen eerlijk is. Wat is de kans \(\textrm{Pr}\!\left[A \text{ en } B\right]\)?

De gebeurtenis “\(A\) of \(B\)

We zijn ook vaak geïnteresseerd in de situatie dat gebeurtenis \(A\) of gebeurtenis \(B\) plaatsvindt. Dat is de gebeurtenis “\(A\) of \(B\)”. In het Venn-diagram Figuur 22.3 wordt de gebeurtenis “\(A\) of \(B\)” gerepresenteerd door het hele gekleurde gebied, omdat in dat hele gebied ofwel \(A\) ofwel \(B\) plaatsvindt (of beide). De kans op een uitkomst in dat gebied wordt geschreven als \(\textrm{Pr}\!\left[A \textrm{ of } B\right]\).

Inclusieve en exclusieve “of”

Het wordt of wordt in het Nederlands op twee manieren gebruikt. Als iemand zegt dat je een koekje of een bonbon mag pakken, is het meestal niet de bedoeling dat je een koekje én een bonbon pakt. Het woord of wordt dan exclusief gebruikt: het één of het ander, maar niet allebei. Maar als de overheid zegt dat je een vaccin mag komen halen als je tot een risicogroep behoort of in de zorg werkt, dan mag je de prik ook als je tot een risicogroep behoort én in de zorg werkt. Het woord of wordt dan inclusief gebruikt: het één of het ander, of allebei.

Als we het hebben over de gebeurtenis \(A\) of \(B\) dan bedoelen we dit altijd inclusief. \(A\) of \(B\) vindt plaats als \(A\) plaatsvindt of als \(B\) plaatsvindt, of beide.

Oefening 22.4 (Inclusieve of exclusive “of”)

Identificeer of “of” in de volgende zinnen inclusief of exclusief bedoeld is. Alle zinnen komen uit de Onderwijs- en Examenregeling (OER).

  1. “De cursussen van de opleiding hebben een studielast van 7,5 studiepunt of een veelvoud daarvan.”

  2. “(…) gedurende de cursus kunnen studenten feedback geven over zaken die mogelijk anders of beter zouden kunnen;”

  3. “Als lid of voorzitter van de Examencommissie kan niet benoemd worden iemand die een managementfunctie met financiële verantwoordelijkheid bekleedt (…)”

  4. “Het werk van de student wordt beoordeeld op een numerieke schaal of met het oordeel voldoende (V) of onvoldoende (ONV).”

Oefening 22.5 (Overlappende gebeurtenissen \(A\) en \(B\), deel 2)

Gebruik dezelfde definities van \(A\) en \(B\) als in Oefening 22.3. Je kunt ook de schets hergebruiken die je daar hebt gemaakt.

  1. Teken een lijn om de gebeurtenis “\(A\) of \(B\)”.

  2. Welke uitkomsten vallen onder die gebeurtenis?

  3. Aangenomen dat de dobbelsteen eerlijk is, wat is de kans op \(\textrm{Pr}\!\left[A \text{ of } B\right]\)?

22.5 Conditionele kansen

Vaak verandert de kans op een gebeurtenis zodra je extra informatie krijgt. Bijvoorbeeld, de kans dat een willekeurige gekozen persoon zwanger is verandert zodra je leert dat deze persoon 60 jaar oud is. We moeten de kansen op uitkomsten dus herzien wanneer informatie over de uitkomst “gegeven is”. We noemen zulke aangepaste kansen conditionele kansen (conditional probabilities).

De kans op gebeurtenis \(A\) gegeven dat gebeurtenis \(B\) plaatsvindt, wordt geschreven als \[\textrm{Pr}\!\left[A | B\right].\] Je spreekt dit uit als “de kans op \(A\) gegeven \(B\)”.

Venn-diagrammen kunnen helpen bij het interpreteren van conditionele kansen. Kijk maar eens terug naar het Venn-diagram van Figuur 22.3. De kans op \(A\), dus \(\textrm{Pr}\!\left[A\right]\), is de kans op alle uitkomsten binnen de gele cirkel. Maar als gegeven is dat gebeurtenis \(B\) plaatsvindt, dan zijn alle uitkomsten buiten de blauwe cirkel daarmee uitgesloten. De conditionele kans \(\textrm{Pr}\!\left[A | B\right]\) is dus de kans op de uitkomsten in het overlappende (cyaan/groenige) gedeelte, dus \(\textrm{Pr}\!\left[A \text{ en } B\right]\), relatief ten opzichte van de kans op de uitkomsten in de gehele blauwe cirkel, dus \(\textrm{Pr}\!\left[B\right]\). Dat levert de volgende formule op: \[\textrm{Pr}\!\left[A | B\right] = \frac{\textrm{Pr}\!\left[A \text{ en } B\right]}{\textrm{Pr}\!\left[B\right]}. \tag{22.2}\]

Oefening 22.6 (Conditionele kansen)

Gebruik weer de definities van Oefening 22.3. Pak het Venn-diagram dat je getekend hebt er ook weer bij.

Ga uit van een eerlijke dobbelsteen.

  1. Wat is de kans \(\textrm{Pr}\!\left[A\right]\)?

  2. Wat is de kans \(\textrm{Pr}\!\left[B\right]\)?

  3. Wat is de kans \(\textrm{Pr}\!\left[A \text{ en } B\right]\)?

  4. Wat is de kans op \(\textrm{Pr}\!\left[A|B\right]\)?

  5. Wat is de kans \(\textrm{Pr}\!\left[B|A\right]\)?

  6. Leg uit waarom in het algemeen \(\textrm{Pr}\!\left[A|B\right]\) niet gelijk is aan \(\textrm{Pr}\!\left[B|A\right]\).

Bij het denken over conditionele kansen helpt het vaak om te denken aan deelpopulaties. Neem bijvoorbeeld de kans dat een willekeurige Nederlander lijdt aan hartfalen gegeven dat deze persoon diabetes heeft. Dan beperken we ons tot de deelpopulatie van personen met diabetes, en vragen ons af wat de kans is dat iemand in die deelpopulatie hartfalen heeft.

Oefening 22.7 (Deelpopulaties met hartfalen en/of diabetes)

Nederland telde in 2022 bijna 17,6 miljoen inwoners. Van deze mensen hadden er naar schatting 108 duizend diabetes type 1. Ook hadden er ongeveer 250 duizend een diagnose hartfalen. Er is overlap tussen die groepen: er zijn ongeveer 4 duizend Nederlanders met zowel diabetes type 1 als hartfalen.1

Stel dat we een willekeurige Nederlander selecteren. Gebeurtenis \(D\) is dat deze persoon diabetes type 1 heeft, gebeurtenis \(H\) dat deze hartfalen heeft.

Gebruik voor onderstaande berekeningen een R-script in plaats van je rekenmachine.

  1. Teken op papier een Venn-diagram. Schrijf in ieder “compartiment” van het diagram hoeveel Nederlanders in die categorie vallen.

  2. Wat is de kans dat een willekeurig persoon een diagnose hartfalen heeft?

  3. Wat is de kans dat een willekeurig persoon diabetes type 1 heeft?

  4. Nu beperken we ons tot de deelpopulatie van Nederlanders met diabetes type 1. Wat is de kans dat iemand in die deelpopulatie ook een diagnose hartfalen heeft?

  5. Is het risico op hartfalen groter voor patiënten met diabetes type 1 dan voor de doorsnee bevolking? Hoeveel groter?

22.6 De kans op \(A\) en \(B\) berekenen

Vaak willen we de kans op \(A\) en \(B\) uitrekenen. In Oefening 22.3 lukte dat door het Venn-diagram te bekijken, maar in ingewikkeldere situaties is dat moeilijk. Wat zijn de rekenregels die je kunt gebruiken?

Algemene regel voor \(\textrm{Pr}\!\left[A \textrm{ en } B\right]\)

De regel die in alle situaties geldt is:

\[ \textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[A | B\right]\textrm{Pr}\!\left[B\right]. \tag{22.3}\]

Die regel volgt direct uit Vergelijking 22.2, zoals je zelf kunt verifiëren. Om de kans op \(A\) en \(B\) te berekenen, berekenen we dus eerst de kans op \(B\), en vermenigvuldigen die kans met de kans op \(A\) gegeven \(B\).

Omdat \(\textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[B \textrm{ en } A\right]\) geldt ook: \[ \textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[B | A\right]\textrm{Pr}\!\left[A\right]. \tag{22.4}\]
Je kunt dus ook de kans op \(A\) vermenigvuldigen met de kans op \(B\) gegeven \(A\).

Onafhankelijke gebeurtenissen

Het berekenen van \(\textrm{Pr}\!\left[A \text{ en } B\right]\) is erg eenvoudig als de gebeurtenissen \(A\) en \(B\) onafhankelijk zijn. Laten we dat begrip eerst behandelen.

Twee gebeurtenissen \(A\) en \(B\) zijn onafhankelijk (independent) als de kans op gebeurtenis \(A\) niet verandert wanneer we leren dat gebeurtenis \(B\) plaatsvindt, oftewel, als \[ \textrm{Pr}\!\left[A | B\right] = \textrm{Pr}\!\left[A\right]. \tag{22.5}\] In dat geval verandert ook de kans op \(B\) niet als \(A\) gegeven wordt, en geldt dus ook \[ \textrm{Pr}\!\left[B | A\right] = \textrm{Pr}\!\left[B\right]. \tag{22.6}\]

Voorbeeld 22.1 (Dobbelstenen: afhankelijk en onafhankelijke gebeurtenissen) Stel je voor dat we twee eerlijke dobbelstenen gooien— eerst een rode, en dan een blauwe. Gebeurtenis \(A\) is dat we met de rode dobbelsteen een zes gooien; gebeurtenis \(B\) dat we met de blauwe dobbelsteen een zes gooien. Zijn \(A\) en \(B\) onafhankelijk?

Het is moeilijk voor te stellen dat de uitkomst van de rode dobbelsteen iets vertelt over de uitkomst van de blauwe dobbelsteen. De uitkomst van de blauwe dobbelsteen hangt minutieus af van de manier waarop hij geworpen wordt; de uitkomst van de rode dobbelsteen zal daarbij geen rol spelen. Het is dus te verwachten dat de gebeurtenissen \(A\) en \(B\) onafhankelijk zijn. Daarom nemen we dat eigenlijk altijd aan als we berekeningen doen over meerdere dobbelstenen. Die aanname is dan onderdeel van het kansmodel.

En wat als je meerdere keren achter elkaar met dezelfde dobbelsteen gooit? Als je de dobbelsteen tussendoor goed schudt en hem niet al te dicht boven de tafel laat vallen, is het weer redelijk om aan te nemen dat opeenvolgende uitkomsten onafhankelijk zijn. Maar als je de dobbelsteen tussen de worpen alleen oppakt en zonder schudden weer vlak boven de tafel laat vallen, is dat helemaal niet zeker. In die situatie geeft een model dat onafhankelijkheid aanneemt mogelijk onjuiste voorspellingen.

Oefening 22.8 (Zijn \(A\) en \(B\) onafhankelijk?)

Kijk eens terug naar Oefening 22.6. Zijn \(A\) en \(B\) daar onafhankelijk?

Vermenigvuldigingsregel voor onafhankelijke gebeurtenissen

Als gebeurtenissen \(A\) en \(B\) onafhankelijk zijn, dan kunnen we de kans op \(A\) en \(B\) eenvoudig berekenen. Kijk nog eens naar de algemene regel, Vergelijking 22.3. We hebben net gezien dat voor onafhankelijke gebeurtenissen Vergelijking 22.5 geldt. Als je die combineert, krijg je de volgende vermenigvuldigingsregel: \[ \textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[A\right]\textrm{Pr}\!\left[B\right]. \tag{22.7}\]

Oefening 22.9 (Bloedgroep)

Bloedgroepen worden gekarakteriseerd door de antigenen (O, A, B, of AB) en de rhesusfactor (Rh+ of Rh-). De volgende figuur is van de website van Sanquin:

Figuur 22.4: Verdeling van de bloedgroepen in Nederland. Bron figuur: Sanquin
  1. Wat is de kans dat een willekeurig gekozen Nederlander bloedgroep O+ heeft?

  2. Wat is de kans dat een willekeurig gekozen Nederlander bloedgroep O heeft (ongeacht de rhesusfactor)?

  3. Wat is de kans dat een willekeurig gekozen Nederlander rhesusfactor Rh+ heeft?

  4. Als antigen en rhesusfactor onafhankelijk zouden zijn, wat was dan de kans op O+ geweest? Ligt dat ver af van de werkelijkheid? Maken we een grote fout als we in modelberekeningen veronderstellen dat ze onafhankelijk zijn?

  5. Wat zou een biologische verklaring kunnen zijn van de grote mate van onafhankelijkheid tussen antigenen en rhesusfactor?

  6. Wat vind je van de manier waarop Sanquin de verdeling heeft gevisualiseerd?

22.7 De kans op \(A\) of \(B\) berekenen

Nu we rekenregels besproken hebben voor de kans op \(A\) én \(B\) gaan we nu door met formules voor de kans op \(A\) óf \(B\). Dat is gemakkelijk als de gebeurtenissen \(A\) en \(B\) elkaar uitsluiten. Daar moeten we het dus eerst over hebben.

Gebeurtenissen die elkaar uitsluiten

We zeggen dat twee gebeurtenissen \(A\) en \(B\) elkaar uitsluiten als het onmogelijk is dat \(A\) en \(B\) allebei plaatsvinden. Dat betekent dat in het Venn-diagram de twee cirkels voor \(A\) en \(B\) niet overlappen:

Code
A2 <- list(
  geom_ellipse(
    aes(x0 = 28, y0 = 32, a = 25,  b = 28,  angle = 0), 
    fill = kleurA, alpha = 0.5, linewidth = 0.8
    ), 
  annotate(
    "text", 
    x = 27, y = 31, 
    label = expression(italic(A)), 
    color = "black", 
    hjust = 0, 
    size = 5
    )
  )

B2 <- list(
  geom_ellipse(
    aes(x0 = 72, y0 = 68, a = 25,  b = 28,  angle = 0), 
    fill = kleurB, alpha = 0.5, linewidth = 0.8
    ),
  annotate(
    "text", 
    x = 71, y = 67, 
    label = expression(italic(B)), 
    color = "black", 
    hjust = 0, 
    size = 5
    )
)

(AB2 <- kansruimte + A2 + B2)
Figuur 22.5: Venn-diagram. De gebeurtenissen \(A\) en \(B\) overlappen niet en sluiten elkaar dus uit.

Het betekent ook dat \(\textrm{Pr}\!\left[A | B\right] = 0\) en \(\textrm{Pr}\!\left[B | A\right] = 0\), want gegeven dat \(B\) plaatsvindt is gebeurtenis \(A\) onmogelijk, en andersom.

Optelregel voor gebeurtenissen die elkaar uitsluiten

Als twee gebeurtenissen \(A\) en \(B\) elkaar uitsluiten geldt de volgende optelregel: \[ \textrm{Pr}\!\left[A \textrm{ of } B\right] = \textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[B\right]. \tag{22.8}\] Je kunt de kansen op gebeurtenissen die elkaar uitsluiten dus optellen.

Als gebeurtenissen elkaar niet uitsluiten, kun je Vergelijking 22.8 niet gebruiken. Je kunt dat begrijpen aan de hand van het Venn-diagram Figuur 22.3. Gebeurtenissen die elkaar niet uitsluiten overlappen in het Venn-diagram. Als je de kansen op \(A\) en \(B\) nu bij elkaar optelt, tel je het overlappende deel twee keer mee! Dat geeft natuurlijk niet het juiste resultaat. Daarom moeten we in zulke gevallen een andere regel gebruiken; we zullen die in volgende paragraaf bespreken.

Oefening 22.10 (Welke redeneringen hieronder kloppen?)

  1. Bij een gokspelletje heb ik iedere keer dat ik meedoe een kans van \(\frac{1}{10}\) om een prijs te winnen.

    Als ik twee keer meedoe is de kans dat ik een prijs win:

    \[ \begin{align} \textrm{Pr}\!\left[\text{eerste of tweede keer prijs}\right] & = \textrm{Pr}\!\left[\text{eerste keer prijs}\right] + \textrm{Pr}\!\left[\text{tweede keer prijs}\right] \\ &= \frac{1}{10} + \frac{1}{10} \\ &= \frac{2}{10}. \end{align} \]

  2. De kans dat de bloedgroep van een willekeurige person rhesusfactor + heeft, is:

    \[\textrm{Pr}\!\left[\text{+}\right]= \textrm{Pr}\!\left[\text{O+}\right] + \textrm{Pr}\!\left[\text{A+}\right] + \textrm{Pr}\!\left[\text{B+}\right] + \textrm{Pr}\!\left[\text{AB+}\right].\]

Algemene regel

Als \(A\) en \(B\) elkaar niet uitsluiten wordt de regel iets ingewikkelder. Maar, de regel is goed te begrijpen door het Venn-diagram goed te bestuderen:

Code
AB
Figuur 22.6: Venn-diagram. Voor de kans op \(A\) of \(B\) moet het overlappende (groenige) gebied één keer worden meegeteld!

De kans op \(A\) of \(B\) is de kans die besloten ligt in de gele en de blauwe cirkel, inclusief hun overlap (het cyaan/groenige gebied). Als je de kans op \(A\) (de kans binnen de gele cirkel) en de kans op \(B\) (de kans binnen de blauwe cirkel) simpelweg zou optellen, dan zou je de kans binnen de overlap (het cyaan/groenige gebied) dubbel meetellen. Daarom moet je die kans er één keer vanaf trekken. De kans in het cyaan/groenige gebied is de kans op \(A\) én \(B\). Het resultaat is daarom de volgende algemene formule:

\[ \textrm{Pr}\!\left[A \textrm{ of } B\right] = \textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[B\right] - \textrm{Pr}\!\left[A \textrm{ en } B\right]. \tag{22.9}\]

Oefening 22.11 (Optelregel of algemene regel)

Stel dat \(A\) en \(B\) elkaar wederzijds uitsluiten.

  1. Wat is \(\textrm{Pr}\!\left[A \textrm{ en } B\right]\) dan?

  2. Als \(A\) en \(B\) elkaar uitsluiten mag je de optelregel Vergelijking 22.8 gebruiken om \(\textrm{Pr}\!\left[A \textrm{ of } B\right]\) te berekenen. Gaat er iets mis als je in plaats daarvan de algemene regel Vergelijking 22.9 gebruikt?

Oefening 22.12 (Resistente bacterien)

In een populatie bacteriën komen twee mutaties voor die de bacterie resistent maken tegen het antibioticum ciprofloxacin.

Mutatie 1 komt voor in 30% van de bacteriën, mutatie 2 in 40% van de bacteriën. Maar, er is overlap: 15% van de bacteriën heeft beide mutaties.

Welk percentage van de bacteriën is resistent?

Oefening 22.13 (De kans op \(A\) of \(B\) of \(C\))  

  1. Teken een Venn-diagram met daarin drie gebeurtenissen: \(A\), \(B\), en \(C\). Zorg ervoor dat alle gebeurtenissen overlap met elkaar hebben, en dat er ook een plek is waar ze alle drie overlappen.

  2. De formule voor de kans op \(A\) of \(B\) of \(C\) begint met het optellen van de kansen op \(A\), \(B\), en \(C\):

    \[\textrm{Pr}\!\left[A \text{ of } B \text{ of } C\right] = \textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[B\right] + \textrm{Pr}\!\left[C\right] + \ldots\]

    Wat moet er op de puntjes worden ingevuld?

    Hint: Bekijk je Venn-diagram en bepaal welke delen dubbel of zelfs driedubbel worden geteld.

22.8 De Stelling van Bayes

In Oefening 22.6 heb je gezien dat \(\textrm{Pr}\!\left[A |B\right]\) en \(\textrm{Pr}\!\left[B | A\right]\) over het algemeen niet gelijk zijn. Dat is eigenlijk ook logisch als je het concreet maakt met een voorbeeld. De kans dat een willekeurig persoon Engels verstaat gegeven dat die persoon Nederlander is, is iets heel anders dan de kans dat een persoon Nederlander is gegeven dat deze Engels verstaat.

Toch is er wel een relatie tussen de twee conditionele kansen. Die relatie heet de Stelling van Bayes (Bayes’ Theorem) of ook wel de regel van Bayes (Bayes’ rule), naar Thomas Bayes (1701–1761), de Engelse predikant en wiskundige die deze regel als eerste lijkt te hebben gebruikt.

De relatie is gemakkelijk af te leiden uit twee vergelijkingen die we eerder gezien hebben, namelijk Vergelijking 22.3 en Vergelijking 22.4: \[ \begin{gather} \textrm{Pr}\!\left[A \text{ en } B\right] = \textrm{Pr}\!\left[ B | A\right]\textrm{Pr}\!\left[A\right],\\ \textrm{Pr}\!\left[A \text{ en } B\right] = \textrm{Pr}\!\left[ A | B\right]\textrm{Pr}\!\left[B\right]. \end{gather} \] Daaruit volgt gelijk dat \[ \textrm{Pr}\!\left[ B | A\right]\textrm{Pr}\!\left[A\right] = \textrm{Pr}\!\left[ A | B\right]\textrm{Pr}\!\left[B\right]. \] Aangenomen dat \(\textrm{Pr}\!\left[A\right] \neq 0\) kunnen we vervolgens delen door \(\textrm{Pr}\!\left[A\right]\), en daarmee krijgen we de gewenste regel:

Important 22.1: De Stelling van Bayes

\[ \textrm{Pr}\!\left[ B | A\right] = \frac{\textrm{Pr}\!\left[A | B\right] \textrm{Pr}\!\left[B\right]}{\textrm{Pr}\!\left[A\right]}. \tag{22.10}\]

Deze stelling maakt het mogelijk om \(\textrm{Pr}\!\left[B | A\right]\) en \(\textrm{Pr}\!\left[A | B\right]\) in elkaar om te rekenen.

Oefening 22.14 (De kans op diabetes gegeven hartfalen)

Kijk eens terug naar Oefening 22.7. Je hebt daar verschillende kansen uitgerekend, waaronder de kans \(\textrm{Pr}\!\left[H | D\right]\) dat iemand met diabetes type 1 ook een diagnose hartfalen heeft.

Gebruik nu de Stelling van Bayes om \(\textrm{Pr}\!\left[D | H\right]\) uit te rekenen, de kans dat een willekeurig persoon met een diagnose hartfalen ook diabetes type 1 heeft. Maak bij de berekening gebruik van je resultaten uit Oefening 22.7.

22.9 Samenvatting

Basisbegrippen & frequentistische definities

Kansrekenen of waarschijnlijkheidsleer gaat over kansexperimenten. Een kansexperiment kan meerdere uitkomsten hebben. Iedere functie van de uitkomst is een kansvariabele. De verzameling van mogelijke uitkomsten heet de kansruimte. Een gebeurtenis is een deelverzameling van de kansruimte. Volgens de frequentistische definitie is de kans op een gebeurtenis de relatieve frequentie waarmee de gebeurtenis voorkomt in een oneindig lange reeks herhalingen van hetzelfde kansexperiment.

Om kansen te kunnen berekenen van gebeurtenissen in de werkelijkheid zul je altijd aannames moeten maken over het kansexperiment: een kansmodel.

Venn-diagrammen

Een Venn-diagram is een diagram waarin de kansruimte en relevante gebeurtenissen verbeeld worden als vormen (zoals cirkels) met of zonder overlap.

Rekenregels

Som van alle kansen

Bij categorische variabelen en discrete variabelen kunnen de kansen worden opgeteld: \[ \sum_x \textrm{Pr}\!\left[X = x\right] = 1. \] De sommatie gaat over alle mogelijke uitkomsten \(x\) (de volledige kansruimte).

Complementregel

\[ \textrm{Pr}\!\left[A\right] = 1 - \textrm{Pr}\!\left[ \text{niet } A\right].\]

Conditionele kansen

De kans op \(A\) gegeven \(B\): \[\textrm{Pr}\!\left[A | B\right] = \frac{\textrm{Pr}\!\left[A \text{ en } B\right]}{\textrm{Pr}\!\left[B\right]}.\] Gebeurtenissen \(A\) en \(B\) zijn onafhankelijk als: \[ \textrm{Pr}\!\left[A | B\right] = \textrm{Pr}\!\left[A\right].\]

Kans op A en B

Vermenigvuldigingsregel voor onafhankelijke gebeurtenissen: \[ \textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[A\right] \textrm{Pr}\!\left[B\right]. \]

Algemene regel: \[ \textrm{Pr}\!\left[A \textrm{ en } B\right] = \textrm{Pr}\!\left[A | B\right]\textrm{Pr}\!\left[B\right]. \]

Kans op A of B

Optelregel voor gebeurtenissen die elkaar uitsluiten: \[ \textrm{Pr}\!\left[A \textrm{ of } B\right] = \textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[B\right]. \]

Algemene regel: \[ \textrm{Pr}\!\left[A \textrm{ of } B\right] = \textrm{Pr}\!\left[A\right] + \textrm{Pr}\!\left[B\right] - \textrm{Pr}\!\left[A \textrm{ en } B\right]. \]

Stelling van Bayes

\[ \textrm{Pr}\!\left[ B | A\right] = \frac{\textrm{Pr}\!\left[A | B\right] \textrm{Pr}\!\left[B\right]}{\textrm{Pr}\!\left[A\right]}. \]

22.10 Terminologie

Tabel 22.1: Woordenlijst Hoofdstuk 22 .
Nederlands Engels Betekenis
conditionele kans conditional probability De kans op een gebeurtenis als gegeven dat een andere gebeurtenis plaatsvindt.
frequentistisch kansbegrip frequentist probability concept Begrippenkader waarbinnen een kans gedefineerd wordt als de relatieve frequentie in een oneindige reeks identiek uitgevoerde kansexperimenten.
gebeurtenis event Een deelverzameling van mogelijke uitkomst van een kansexperiment.
kansexperiment chance experiment Een experiment of procedure waarbij de uitkomst niet van tevoren te voorspellen is.
kansruimte sample space De verzameling van alle mogelijke uitkomsten van een kansexperiment.
kansvariabele random variable Een variabele waarvan de waarde afhangt van de uitkomst van een kansexperiment.
onafhankelijk gebeurtenissen independent events Twee gebeurtenissen zijn onafhankelijk als de kans op de ene gebeurtenis niet verandert als gegeven wordt dat de andere plaatsvindt.
stochastische variabele/stochast stochastic variable Een ander woord voor kansvariabele.
Venn-diagram Venn diagram Een diagram waarin de kansruimte en relevante gebeurtenissen verbeeld worden als vormen (zoals cirkels) met of zonder overlap.

22.11 Opgaven

Oefening 22.15 (Eenvoudig model voor de lengtes van G-tracts)

Een DNA-sequentie die alleen uit de letter G bestaat, wordt een G-tract genoemd. In het DNA van veel organismen komen lange G-tracts voor. Dat kan natuurlijk toeval zijn. De vraag komt dus op: Hoe lang verwachten we dat G-tracts zoal zijn?

Om onze verwachting te kalibreren stellen we een model op. We noemen de fractie van de nucleotiden dat een G is \(p\). Ons model is nu dat iedere letter van een genoom onafhankelijk met kans \(p\) een G is en dus met kans \(1 - p\) C,T, of A.

In werkelijkheid is een genoom natuurlijk niet random samengesteld, maar dit model kan wel iets vertellen over wat we bij toeval kunnen verwachten.

  1. Stel dat we ergens in een DNA-sequentie een G tegenkomen. Wat is volgens het model de kans dat direct daarna een C,T, of A volgt?

    Merk op dat dit de kans is dat een G-tract lengte 1 heeft, \(\textrm{Pr}\!\left[X = 1\right]\).

  2. Stel dat we ergens in een DNA-sequentie een G tegenkomen. Wat is volgens het model de kans dat er daarna eerst nog een G volgt, en daarna een C,T, of A?

    Merk op dat dit de kans is dat een G-tract lengte 2 heeft, \(\textrm{Pr}\!\left[X = 2\right]\).

  3. Stel dat we ergens in een DNA-sequentie een G tegenkomen. Wat is volgens het model de kans dat er daarna eerst nog twee keer een G volgt, en daarna een C,T, of A?

    Merk op dat dit de kans is dat een G-tract lengte 3 heeft, \(\textrm{Pr}\!\left[X = 3\right]\).

  4. Als voorbeeld gebruiken we het humaan chromosoom 21. Voor dat chromosoom is de fractie G gelijk aan \(p = 0{,}205\). Bereken \(\textrm{Pr}\!\left[X =1\right]\), \(\textrm{Pr}\!\left[X = 2\right]\), en \(\textrm{Pr}\!\left[X = 3\right]\) voor die waarde van \(p\). (Als je zin hebt, kun je ook \(\textrm{Pr}\!\left[X = 4\right]\) en verder uitrekenen!)

  5. Om de daadwerkelijke verdeling van lengtes van G-tracts te bepalen, hebben we de sequentie van chromosoom 11 (46709983 nucleotiden) gedownload en een R-script geschreven om de verdeling te bepalen.

    Het resultaat is:2

    Code
    # Controleer of benodigde packages geladen zijn
    if (!("ggplot2" %in% .packages())) { library(ggplot2) }
    if (!("httr" %in% .packages())) { library(httr) }
    if (!("R.utils" %in% .packages())) { library(R.utils) }
    if (!("dplyr" %in% .packages())) { library(dplyr) }
    
    # ---- Stap 1: Lees het genoom vanuit het gedownloade FASTA-bestand ----
    
    # Path naar het FASTA-bestand
    #fasta_bestand <- "data/Homo_sapiens.GRCh38.dna.chromosome.21.fa"
    fasta_bestand <- "https://tbb.bio.uu.nl/hermsen/DataStatistiek/Homo_sapiens.GRCh38.dna.chromosome.21.fa"
    
    # Lees het FASTA-bestand als tekstregels
    fasta_regels <- readLines(fasta_bestand)
    
    # Verwijder de header-regel(s) (die beginnen met ">")
    dna_regels <- fasta_regels[!grepl("^>", fasta_regels)]
    
    # Concateneer alle regels tot één lange DNA-string
    dna <- paste(dna_regels, collapse = "")
    
    # ---- Stap 2: Identificeer G-tracts ----
    
    # Regex om G-tracts te vinden (continue stukken van 'G')
    g_tracts <- gregexpr("G+", dna, perl = TRUE)[[1]]
    
    # Lengtes van de gevonden G-tracts
    lengtes_g_tracts <- attr(g_tracts, "match.length")
    
    # Filter lege waarden en beperk tot lengte <= 7
    lengtes_g_tracts <- lengtes_g_tracts[
      lengtes_g_tracts > 0 & lengtes_g_tracts <= 7
    ]
    
    # ---- Stap 3: Bepaal de correcte GC-content en p_G ----
    
    # Tellen van alleen A, T, C, G (N wordt genegeerd)
    nucleotiden <- table(strsplit(dna, NULL)[[1]])
    nucleotiden <- nucleotiden[
      names(nucleotiden) %in% c("A", "T", "C", "G")
    ]
    
    # Totale geldige bases
    aantal_valid <- sum(nucleotiden)
    
    # GC-content
    gc_gehalte <- (nucleotiden["G"] + nucleotiden["C"]) / aantal_valid
    
    # Kans op een 'G' in een willekeurig gekozen positie
    p_g <- nucleotiden["G"] / aantal_valid
    
    # ---- Stap 4: Bereken de verwachte geometrische verdeling ----
    
    # Geometrische verdeling: (1 - p_G) * p_G^(k-1) * totaal aantal waarnemingen
    max_lengte <- 7
    verwachte_frequenties <- data.frame(
      lengte = 1:max_lengte,
      frequentie = (1 - p_g) * p_g^(0:(max_lengte - 1)) *
                   length(lengtes_g_tracts)
    )
    
    # ---- Stap 5: Bereken de relatieve frequenties ----
    
    # Dataframe maken voor waargenomen verdeling
    data_g_tracts <- as.data.frame(table(lengtes_g_tracts))
    colnames(data_g_tracts) <- c("lengte", "absolute_frequentie")
    
    # Zet lengte om naar numeriek
    data_g_tracts$lengte <- as.numeric(as.character(data_g_tracts$lengte))
    
    # Bereken relatieve frequentie
    data_g_tracts$relatieve_frequentie <-
      data_g_tracts$absolute_frequentie /
      sum(data_g_tracts$absolute_frequentie)
    
    # Normaliseer de verwachte verdeling naar relatieve frequentie
    verwachte_frequenties$frequentie <-
      verwachte_frequenties$frequentie /
      sum(verwachte_frequenties$frequentie)
    
    # ---- Stap 6: Plot de relatieve frequenties ----
    
    ggplot(data_g_tracts, aes(x = lengte, y = relatieve_frequentie)) +
      geom_bar(
        stat = "identity", fill = "darkorange", color = "black",
        alpha = 1, width = 1
      ) +
      geom_line(
        data = verwachte_frequenties, aes(x = lengte, y = frequentie),
        color = "DarkOrchid", size = 1.2
      ) +
      geom_point(
        data = verwachte_frequenties, aes(x = lengte, y = frequentie),
        color = "DarkOrchid", size = 2
      ) +
      labs(
        title = "Lengtes van G-tracts op Chromosoom 11",
        subtitle = paste("Proportie G:", round(p_g, 3)),
        x = "Lengte van G-tract",
        y = "Relatieve Frequentie"
      ) +
      theme_minimal()

    Het histogram geeft de echte data weer, en de paarse lijn is de verwachting op basis van ons eenvoudige model.

    Vergelijk het histogram met de paarse lijn. Wat is jouw conclusie?

Oefening 22.16 (De screening-paradox)

Bij bevolkingsonderzoeken worden mensen gescreend om ziektes in een vroeg stadium te ontdekken. Bijvoorbeeld, in de strijd tegen borstkanker worden in Nederland vrouwen van 50 tot 75 jaar elke twee jaar uitgenodigd voor een mammografie.

De sensitiviteit van een mammografie is ongeveer 90%; dat wil zeggen dat de kans 0,9 is dat de test positief is als een vrouw daadwerkelijk borstkanker heeft. De specificiteit van een mammografie is ongeveer 95%; dat wil zeggen dat de kans 0,95 is dat de test negatief uitvalt bij vrouwen die geen borstkanker hebben. Een mammografie is dus een behoorlijk sensitieve en specifieke test, en bovendien niet duur.

Borstkanker komt ook voor bij jongere vrouwen, met akelige consequenties. De vraag rijst dan: waarom screenen we jongere vrouwen niet?

Dit heeft te maken met de screening-paradox; deze opgave illustreert het probleem

Laten we als voorbeeld bekijken wat er zou gebeuren als we alle vrouwen van 30 jaar zouden screenen. Dat zijn er in Nederland zo’n 120 000. Schattingen geven aan dat ongeveer 0,1% van de vrouwen van die leeftijd borstkanker heeft. (We noemen dat getal de prevalentie van borstkanker op die leeftijd.)

De gebeurtenis dat een willekeurige vrouw van 30 borstkanker heeft noteren we als \(K\), de gebeurtenis dat ze geen borstkanker heeft als \(G\) (voor gezond). De gebeurtenis van een positieve test is \(P\) en die van een negatieve test is \(N\).

  1. Wat is \(\textrm{Pr}\!\left[K\right]\)? Hoeveel vrouwen van 30 jaar hebben dus naar verwachting bostkanker?

  2. Wat is \(\textrm{Pr}\!\left[G\right]\)? Hoeveel vrouwen van 30 jaar hebben géén borstkanker?

  3. Wat is \(\textrm{Pr}\!\left[P | K\right]\)? Bij hoeveel vrouwen zou de screening naar verwachting kanker ontdekken?

  4. Wat is \(\textrm{Pr}\!\left[N | G\right]\)?

  5. Wat is \(\textrm{Pr}\!\left[P | G\right]\)? Bij hoeveel vrouwen zou de screening naar verwachting onterecht positief uitvallen? Vergelijk dit met je antwoord op onderdeel c.

  6. Wat is \(\textrm{Pr}\!\left[P\right]\), de kans dat een willekeurige vrouw een positieve test krijgt? Hint: gebruik dat \[ \begin{align} \textrm{Pr}\!\left[P\right] &= \textrm{Pr}\!\left[K \text{ and } P\right] + \textrm{Pr}\!\left[G \text{ and } P\right]\\ & = \textrm{Pr}\!\left[P | K\right]\textrm{Pr}\!\left[K\right] + \textrm{Pr}\!\left[P | G\right]\textrm{Pr}\!\left[G\right].\\ \end{align} \] Hoeveel vrouwen krijgen dus in totaal een positieve test terug?

  7. Wat is \(\textrm{Pr}\!\left[K | P\right]\), de kans dat iemand die met een positieve test wordt doorverwezen naar de oncoloog ook daadwerkelijk kanker heeft?

    Hint: gebruik de Stelling van Bayes.

  8. Wat is, gezien deze resultaten, het grote nadeel van vroegtijdig screenen?

  9. De sensitiviteit en specificiteit van deze test was behoorlijk hoog; toch hebben de meeste vrouwen met een positieve uitslag geen kanker. Dat gegeven wordt de screening-paradox genoemd. Leg uit wanneer die paradox optreedt.


  1. Vanhommerig, Joost, and Bart Knottnerus. “Diabetes mellitus type 1 en type 2 in Nederland: comorbiditeit in 2022,” 2022.↩︎

  2. Als je wilt, kun je het resultaat namaken door het script te kopieren en op je eigen computer te runnen. Je moet dan wel zelf de datafile voor chromosoom 11 even hier downloaden, en zorgen dat het pad in de code naar jouw bestand verwijst.↩︎