Wie denkt dat de verkeerde formule is gebruikt in het artikel “Bandbreedtes voor dummies” kan even zelf Googlen of de verantwoording hieronder lezen.
Klik op de link hieronder voor Google resultaten.
https://www.google.com/search?q=kleine+steekproef+uit+een+grote+populatie+opvatten+als+met+of+zonder+terugleggen
Verantwoording
De formule die wij hebben gehanteerd voor het sommeren wordt gebruikt voor niet-gecorreleerde kansen. Vergelijk het met een vaas met 8 rode en 8 zwarte ballen. Als je daar 10 keer blind een bal uit moet halen, is het belangrijk of je dat doet met terugleggen of zonder terugleggen. Elke keer als je er een rode uithaalt, wordt de kans op rood kleiner en de kans op wit groter. Trek je bijvoorbeeld 8 maal rood, dan wordt de kans op witte ballen in de laatste twee trekkingen 100%. Dan zijn de gebeurtenissen dus gecorreleerd: elk resultaat beïnvloedt de volgende kans.
Leg je daarentegen na elke trekking de bal terug in de vaas dan dan blijft de uitgangssituatie bij elke trekking hetzelfde: dat zijn niet-gecorreleerde kansen. Je kunt eindeloos ballen trekken van welke kleur dan ook en bij elke trekking is er altijd evenveel kans op beide uitkomsten.
De formule die in dit artikel wordt gehanteerd om de curve te maken (het sommeren van kansen) is inderdaad altijd goed voor “met terugleggen” maar niet altijd voor “zonder terugleggen”. Toch hebben we voor deze formule gekozen, ondanks dat mensen maar 1x doodgaan en er geen sprake kan zijn van herstel van de beginsituatie. Strikt genomen zou je kunnen stellen dat met elk sterfgeval de volgende kansen worden beïnvloed. Overleden mensen doen immers niet meer mee voor de volgende kans, net zoals de bal die niet wordt teruggelegd in de vaas. Er zou dus een andere, complexere formule kunnen worden gebruikt, die het “zonder terugleggen” effect meecalculeert. Althans, volgens enkele statistici die hun reputatie hiermee in de waagschaal leggen want volgens mij is dit echt elementaire statistiek. Een voorbeeld van woo-woo: pure bluf om gezond redeneren af te stoppen met het claimen van superieure kennis. Die er dus ofwel niet is, ofwel opzettelijk wordt verzwegen. Het belangrijkste is dat er termen worden gebruikt waardoor anderen denken “dat zal dan wel, hij heeft er verstand van, dat zegt hij tenminste zelf de hele tijd”.
Hieronder verklaren we onze keuze voor de formule zonder teruglegging. Allereerst is er een basisregel in de statistiek maar we hebben meer overwegingen – want ook van een regel moet je begrijpen waarom en wanneer je die toepast.
- Bij kleine steekproeven uit grote populaties wordt aanbevolen om “met teruglegging” te gebruiken. Dit vinden we terug in elk handboek voor statistiek. Zie onderstaande passage uit een syllabus van de VU.
Als je 10 ballen haalt uit een vaas met tienduizend ballen, hoeveel effect zal dat hebben op de volgende kans? Of 300 ballen uit een vaas met 17 miljoen ballen? Dat geeft een verwaarloosbare impact op de vervolgkansen.
- De populatie wordt bij elk (over)sterftegeval kleiner en dat rekenen we inderdaad niet mee. Bij dit bezwaar wordt de populatie dus gezien als die vaas met een eindig aantal ballen. Maar het tegenovergestelde is waar: de populatie groeit juist, dus de aanwas door geboortes en immigratie is groter dan het verlies aan sterfte. Ook al zou dit effect verrekend worden, dan nog zullen eventuele verschillen pas ver achter de komma zichtbaar worden.
- Onze bandbreedte toont nu een situatie waarin mensen WEL vaker zouden kunnen doodgaan. Dit maakt de band rond de verwachte sterfte dus (een microfractie) breder. De band is dus theoretisch ietsje te breed. Maken we de bandbreedte smaller dan wordt de oversterfte alleen maar groter. De verschillen tussen beide methodes zullen hoe dan ook verwaarloosbaar zijn.
Kortom: de methode is correct toegepast. De statistici die hiermee proberen “zolderkamerrekenaars” onderuit te halen zouden inhoudelijker argumenten moeten kunnen aanvoeren dan alleen “Laat dit nou maar over aan echte statistici” op basis van een regel die niet van toepassing is.