“Indien er een fout wordt gemaakt, wordt deze na ontdekking zo snel mogelijk hersteld. Hier wordt transparant over gecommuniceerd via het coronadashboard.” Dat schreef minister Kuipers over de technische fout op het coronadashboard. Die had tot gevolg dat er vier maanden lang een uitgebalanceerde verhoging van de drempelwaarde voor oversterfte werd afgebeeld. Dat maakte ik aanhangig op 30 april. Nadat Maurice de Hond erover blogde en tweette, genereerde het publiciteit en werd er actie op ondernomen. Het toont maar weer aan hoe essentieel kritische media zijn.
Minister Kuipers beantwoordde gisteren de Kamervragen van Wybren van Haga. Blckbx berichtte vandaag over de uitleg en schrijft: “Of de ‘fout’ ook zou zijn hersteld, als de minister daar niet door De Hond op was gewezen, zegt Kuipers niet”.
Minister Kuipers verzekert ons in zijn antwoorden in elk geval dat “Indien er een fout wordt gemaakt […] hier transparant over wordt gecommuniceerd via het coronadashboard.” Hij had ook heel gemakkelijk kunnen zeggen: “Jawel hoor, dat herstellen van zo’n fout doen we echt, dat hebben we vorig jaar immers ook gedaan“. Maar zo transparant wenst hij het nu allemaal ook weer niet. Of was hij ook daarvan niet op de hoogte?
Een kleine reconstructie van 2020-2021 naar aanleiding van een tip van André Redert. Exact hetzelfde verhaal speelde zich het jaar daarvoor ook af.
Fouten herstellen die niet worden ontdekt? Zeker. Kijk maar.
Op 17 december 2020, Een jaar eerder dus, zag de grafiek er zo uit:
En dan zien we het weer: op 29 december 2020 verdwijnt de oversterfte weer grotendeels: de lijn past keurig binnen de blauwe band. Zeker tot 13 januari is deze bandbreedte te ruim afgebeeld. Latere screenshots heb ik niet meer proberen op te speuren. Op Duckduckgo en Google vind ik geen berichten hierover.
Geen spoor van publiciteit of opschudding over een verkeerde grafiek dus, maar op 19 januari 2021 was het toch weer OK:
Hiermee heeft Kuipers wat mij betreft het gelijk aan zijn kant: fouten worden hersteld, ook als er géén waakhond aanslaat.
Maar transparant? Hmm… als matglas dan.
Kijk even naar die enorme dip helemaal rechts in de grafiek. Daarover wordt transparant gecommuniceerd bij de uitleg van die grafiek:
“Let op: Momenteel is door een technisch probleem in week 53 (28 december 2020 – 3 januari 2021) alleen de sterfte weergegeven van de eerste 4 dagen van die week. In totaal overleden er echter 4058 mensen in week 53. Er wordt aan gewerkt om deze week alsnog correct te tonen op het dashboard.”
Over de tijdelijke foute bandbreedte dus geen woord. Of er echt zo transparant over gecommuniceerd is kunnen we niet meer nagaan: het kan zijn dat dat begin januari wel op de site heeft gestaan maar het is dan toch onopgemerkt gebleven. De rest van zijn uitleg klopt ook: het is niet alleen hersteld maar gezien de periode waarin het plaatsvond (eind december) zal het inderdaad dezelfde reden hebben gehad:
“De fout is ontstaan bij het inladen van de prognoses die het CBS 1x per jaar maakt van de sterfte van het volgende jaar.”
Minister Kuipers legt uit hoe de technische fout elk jaar ontstaat
Ik snap technocraten wel: de techniek maakt de fouten, dat scheelt eigen verantwoordelijkheid. Niemand wordt afgezet van wege een technische fout. Dit is geen technische fout. Dit is een menselijke fout van een databeheerder die data zit over te pompen zonder even te kijken of alles goed is gegaan. Het blijft een wonder hoe twee identiek ogende grafiekjes hetzelfde weergeven (bovengrens, ondergrens, waarde) en dat de waarde perfect overkomt maar de bandbreedte niet. Terwijl je toch zou zeggen dat de een de code van de ander ooit heeft overgenomen. Ik hoop tenminste dat het zo werkt en dat het niet om redenen van privacy opnieuw gemaakt moest worden. Het is eigenlijk geen technische fout. Het is geen haperende bluetooth-connectie of gecorrumpeerde USB-stick. Het is ooit doelbewust zo opgezet -ook daarvoor zal dan wel weer een verklaring zijn- en moet nu jaarlijks worden gecorrigeerd.
Ik kan me voorstellen dat het Kuipers wat ver ging om te zeggen: “Ja hoor, die fout maken we elk jaar bij het inladen van de data van CBS en we weten precies hoe we dat moeten herstellen”. Wordt alle output zo gecontroleerd? Niet echt bevorderlijk voor het vertrouwen.
Maar het lijkt mij dat er wel iemand flink op zijn falie heeft gehad daar bij VWS, afdeling dasboards. “Jij krijgt dit jaar voor straf géén vaccinatie meer!”
Bericht van Blckbx, met links naar kamervragen en antwoorden: https://www.blckbx.tv/corona/kuipers-wijt-wegmoffelen-oversterfte-op-coronadashboard-aan-technische-fout
Ik dacht, dat de bandbreedte ook nog veranderd is. Zodat de oversterfte lijn langer in het blauwe gebied blijft. Zodat het net lijkt , er is geen extra verwachte oversterfte. Maar ja wanneer je de boven en ondergrens veranderd, tijdens het spel, kan je het ook slecht vergelijken met andere jaren.
Het gaat inderdaad om de bandbreedte. Lees het artikel van 30 april, de link staat in het begin.
In 2022 hebben we van week 13 t/m week 19 volgens de nieuwste data van week 19(zie onderste link) oversterfte gehad. In al deze weken lag de sterfte boven de 95% onzekerheidsmarge. Het CBS heeft week 17(van 3090 naar 3114) en week 18(van 3016 naar 3082) naar boven moeten bijstellen zodat het hier onderstaand bericht niet meer klopt.
https://www.cbs.nl/nl-nl/ni…
In de nieuwere data staan de hogere sterftecijfers.
https://www.cbs.nl/nl-nl/maatwerk/2022/20/overledenen-per-week-provincie-en-gemeente-week-19-2022
Wanneer gaan ze een persbericht uitbrengen dat er nu al 7 weken oversterfte is?
Dat naar boven bijstellen van de sterftecijfers door CBS gebeurt voortdurend (totdat alle data binnen is), maar vreemd genoeg ook naar beneden: bijv. in de weken 1 t/m 5 van dit jaar ging er na een week 69, 132, 105, 182 resp. 198 af. Je zou verwacbten dat als nog niet alle data binnen is, de aantallen te laag zijn. Maar misschien waren al die eerste aantallen typefouten.
Opmerkelijk is ook dat soms maanden later getallen weer nog gewijzigd (of “aangepast”?) worden: bijv. de aantallen van januari werden tot in april en in mei nog gewijzigd.
Inderdaad opmerkelijk als er meer dan een paar weken later de cijfers worden verlaagd. Wat voor verklaring geeft het CBS? Als de cijfers nog zo onzeker zijn dan verwacht ik van het CBS dat ook die onzekerheid ook in hun persbericht wordt gecommuniceerd. Dat heb ik echter niet in hun persberichten kunnen herkennen. Volgens mij was er wettelijk plicht om een overlijden binnen wettelijke termijn te melden. Klopt dat?
Waarom cijfers ook lager kunnen worden na latere invoer/correcties!
Ik werk zelf met data die niet echt goed georganiseerd is. Om die reden moet je in de query’s heel goed opletten dat je de juiste extra filters gebruikt. In een geval van verkeerde of ontbrekende filters kan het zijn dat getallen hoger worden dat in de realiteit. Na correctie worden de getallen ook soms zelfs weer lager. Dat is het geval wanneer data meerdere eigenschappen heeft en je de data met de juiste eigenschappen moet selecteren of wegfilteren. Bijvoorbeeld wordt data ingevoerd met een verkeerde datum en later wordt de datum hersteld naar de goede, de aantallen van de data wordt dan lager in de tweede versie van het dashboard. In de database staat bij de data bijvoorbeeld zowel de oude datum als de nieuwe datum, bij de nieuwe datum een kenmerk van laatst geldige en bij de oude datum het kenmerk gecorrigeerd. Absoluut staat een item/record dus dubbel in de database als je naar de datums kijkt, maar met het juiste filter “Laatst geldige” zie je alleen de juiste en gecorrigeerde data op de juiste datum.
Oftewel in een database is 1+1 niet altijd 2.
Bij de overheid worden er steeds meer analisten aangenomen die via programma’s als Python, R enz. data raadplegen en geen of te weinig kennis hebben van de Bronnen van de data. Deze programma’s zijn volgens mij wat beperkt omdat je de data niet echt kan doorzien, maar mogelijk mis ik wat. Wat volgens mij vaak ontbreekt, is kennis van de data zelf en hoe ontstaat de data, welke processen doorstaat het, welke controles ondergaat het en welke valkuilen bevat het. Mijn ervaring bij de overheid is dat ze niets doen aan databeheer. Dus de invoer is ook meteen al het databeheer dat overheidsdata kent, bij IenW geld dat heel vaak zover mij bekend.
Dus verwacht de komende decennia geen mooie grafieken met data van de overheid zolang ze geen goed databeheer gaan inrichten. De laatste (20) jaren doen ze er in ieder geval nog steeds niet veel (niets?) aan, ze zeggen zelfs dat ze dan liever data kopen, tja dat weet je helemaal niets van de kwaliteit natuurlijk, maar ja dat is nog nooit een probleem geweest bij de overheid.
Op deze site worden veel van mijn vermoedens bevestigd en denk ik dat het heel erg gesteld is met het begrip databeheer bij de overheid, het bestaat niet echt en wordt vooral gezien als een onkostenpost en niemand zijn verantwoording. Maar dat zelfs het CBS hier ook onder zou kunnen vallen shockeerde mij een beetje. Alhoewel ik ooit wel eens data aan CBS moest aanleveren en zij vroegen gegevens die we zelf nergens vast legden of nodig hadden. We waren verplicht de data aan te leveren, dus de enquête werd gevuld met fictieve data spontaan verzonnen uit de onderbuik. Tja…
https://www.cbs.nl/nl-nl/nieuws/2022/22/in-mei-oversterfte-behalve-in-de-laatste-week
Voor mei geeft het CBS nu toe dat in alle weken van mei er oversterfte was behalve de laatste week. Daarvan is echter alleen een schatting beschikbaar.
week 21 schatting 2852
week 21 95% onzekerheidsgrens 2958
Ben benieuwd of de daadwerkelijke cijfers nu wel binnen het onzekerheidsinterval vallen.
Een puzzel;
https://www.cbs.nl/nl-nl/maatwerk/2022/22/overledenen-per-week-provincie-en-gemeente-week-21-2022
Er is oversterfte gedurende week week 13 t/m week 20 onder de totale bevolking. Volgens persbericht van het CBS is dat voornamelijk in de WLZ.
https://www.cbs.nl/nl-nl/nieuws/2022/22/in-mei-oversterfte-behalve-in-de-laatste-week
Echter bij de WLZ is er alleen in de weken 13, 14,15, 17,18 en 20 oversterfte. Bij de overige bevolking( niet WLZ) is dat alleen in de weken 14 en 15.
Kijken we naar een andere uitsplitsing mannen en vrouwen, dan zien we bij de mannen dat er oversterfte is in de weken 14 en 15. Bij de vrouwen is het echter wel de weken 13 t/m 20.
Kijken we naar de leeftijdsopbouw zien we het volgende;
0-65 oversterfte in de weken 1, 5, 13, 15, 16 en 18
65-80 oversterfte in de weken 1, 11, 12, 14, 15 en 18
ouder dan 80 oversterfte in de weken 14 t/m 17
Dus de het persbericht zou moeten zijn oversterfte voornamelijk bij vrouwen. Dat zou de alarmbellen moeten doen rinkelen. Dat zal ook de reden zijn dat het CBS dit ook niet meldt.
Definitie oversterfte van CBS; Er is oversterfte wanneer het geconstateerde aantal overlijdens van een bepaalde groep groter is dan 95% onzekerheidsbovengrens van die groep. De 95% onzekerheidsbovengrenzen van de diverse groep zijn te vinden in tabel 6 van de spreadsheet.