Datamining van Covid-nummers

Vandaag wil ik een beetje ingaan op de gegevens van Covid, want ik zie dat er zeker wat verwarring is.
De belangrijkste reden waarom ik dit project ben begonnen, was om te zeggen dat lockdownmaatregelen gekoppeld waren aan "R-waarde" en dat wetenschappers in de publieke media zeiden dat de R-waarde alleen maar geschat kon worden - ongelooflijk voor mij. Dus laten we eens kijken wat we kunnen vinden.
Welke gegevens hebben we überhaupt tot onze beschikking?
Ik neemGegevens van John's Hopkins University omdat ze tot nu toe nauwkeurigere en snellere gegevens lijken te hebben. De twee belangrijkste waarden die we hebben zijn het totale aantal geïnfecteerden en de mensen die op dit moment geïnfecteerd zijn. Uit deze twee metrieken zullen we alles genereren.

Ziet er - nog - niet veel uit, maar laten we wat eenvoudige dingen vinden om eruit te komen:
Voorbereiding van de gegevens

Ten eerste hebben we iets nodig waar we gemakkelijk mee kunnen werken. Hiervoor zal ik Excel gebruiken, want het is snel en gemakkelijk. Iets programmeren met Python zou ook kunnen werken, maar voor een kort project zou dat wel eens te veel werk kunnen zijn.
De gegevens die we hebben zijn in twee kolommen ingevoegd zoals hierboven weergegeven. Elke rij vertegenwoordigt een dag in de pandemie. De pandemie begon in Zwitserland op 25 februari.
Dagelijks nieuwe infecties
Een waarde die waarschijnlijk nuttig is, is nieuwe infecties. Ik zal deze gegevens niet verzamelen op Johns Hopkins University, maar zal ze uit het totaal van de infecties halen. Dit zal in de toekomst tijd besparen bij het kopiëren.
We hoeven alleen maar het totaal van de infecties van de vorige dag af te trekken van de infecties van de huidige dag.

Wat we kunnen zien is een kleine toename van de infecties in de afgelopen dagen, maar daarover later meer.
Totale genezing en gemiddelde duur van de infectie
De volledige genezing kan worden genomen door het berekenen van de totale infecties minus de momenteel geïnfecteerde. Ter illustratie zet ik de grafiek af tegen het totaal aantal geïnfecteerden.

Nou, dat laat misschien nog niet zo veel zien, behalve dat onze ziekenhuizen nog lang niet vol zijn. Bovendien kunnen we hieruit de besmettingsduur aflezen. Door het uitgeharde totaal naar links te verschuiven, zouden we de infectie tijd moeten krijgen als ze elkaar overlappen. Voor Zwitserland is dit 16 dagen, voor Duitsland 15 dagen. Dit lijkt binnen het meetbereik te liggen.

De infectie tijd zal later nuttig blijken voor de R-waarde
Genezen per dag

Uit de totale genezing kunnen we de dagelijkse genezing genereren. Net als bij de dagelijkse nieuwe infecties trekken we de totale genezing van gisteren af van de totale genezing van vandaag.
Hier kreeg ik wat vraagtekens bij de methode van het verzamelen van deze gegevens door John Hopkins University. Blijkbaar zijn de genezen gevallen sinds 16 mei gemeld in partijen van 100, wat mij zeer vreemd lijkt:
Helaas moeten we ervan uitgaan dat de waarden correct zijn, maar ik zal het minder nauwkeurige gemiddelde moeten gebruiken in plaats van de mediaan. Ik vind de mediaan betrouwbaarder omdat deze effectief uitschieters verwijdert. Maar aangezien onze gegevens hier bestaan uit uitschieters, moeten we het gemiddelde gebruiken.

Daarnaast kunnen we nu ook dagelijks genezen en dagelijks geïnfecteerde patiënten bedekken.

Wat we hier duidelijk kunnen zien is dat de herstelde patiënten consequent meer waren dan de nieuw geïnfecteerde per 1 april. Dit betekent in feite dat de ziekenhuizen vanaf die dag steeds minder werk hadden.
De mystieke R-waarde en de toekomst
Om de R-waarde te verkrijgen, moet men eerst de definitie van de R-waarde kennen. De definitie is als volgt:
"Deverwacht aantal van gevallen die rechtstreeks voortkomen uit een geval in een populatie waarin alle individuenkwetsbaar voor een wijninfectie."
Hoe komen we daar?
we hebben de belangrijkste informatie al.
- Hoe lang duurt een infectie gemiddeld? 16 dagen
- Hoeveel geïnfecteerde mensen zijn er op dit moment?
- Hoeveel nieuwe infecties zijn er per dag?
De dagelijkse R-waarde kan dan als volgt worden berekend:
(nieuwe infecties * duur van een infectie) / huidig aantal geïnfecteerde personen
Dit is het resultaat voor Zwitserland:

Daarnaast heb ik mijn eigen metriek gemaakt om te benadrukken of de zaken erger of beter worden. Meer groen dan lezen betekent dat het beter gaat. Meer rood dan groen betekent dat het erger wordt.
Hoe hoger of lager de waarden, hoe intensiever het effect.

Uh oh - de tweede golf zal op ons afkomen!
maar langzaam voor nu. Laten we eerst eens kijken naar deze twee metrieken uit Duitsland, met op de achtergrond Robert Kochs Guesstimated R-Value:


Duitsland heeft een soortgelijke curve. De stijgende R-waarde had net een kleine hobbel. Ook springt de infectiegebeurtenis als een gek rond op het einde.
Waarom is dat? Laten we eens kijken naar de gegevens rond 15 juni, net voor de piek:
We hebben in totaal 292 actieve gevallen en ~15 nieuwe gevallen per dag in Zwitserland. In feite is het aantal zo klein dat één enkele hotspot de waarden al drastisch zal doen kantelen. Een enkele korte piek is dus niet genoeg om te voorspellen dat de tweede golf zal komen.
Zoals sommigen misschien vermoeden, komt een virus niet en verdwijnt het dan voor altijd. Zo zijn er recentelijk weer gevallen van varkensgriep geconstateerd.
Ik betwijfel of we het virus volledig kunnen uitroeien (wat we momenteel proberen te doen). Het zal eerder evolueren naar iets waar wij mensen mee zullen moeten leven. Er zullen in de nabije toekomst hotspots zijn.
Ik verwacht echter niet dat er binnenkort een nieuwe 2de golf zal komen die vergelijkbaar is met de eerste. Wat er volgend jaar in januari/februari gebeurt, zal alleen de tijd leren.