Datamining van Covid-nummers

Verhaaltitelafbeelding

Vandaag wil ik een beetje ingaan op de gegevens van Covid, want ik zie dat er zeker wat verwarring is.

De belangrijkste reden waarom ik dit project ben begonnen, was om te zeggen dat lockdownmaatregelen gekoppeld waren aan "R-waarde" en dat wetenschappers in de publieke media zeiden dat de R-waarde alleen maar geschat kon worden - ongelooflijk voor mij. Dus laten we eens kijken wat we kunnen vinden.

Welke gegevens hebben we überhaupt tot onze beschikking?

Ik neemGegevens van John's Hopkins University omdat ze tot nu toe nauwkeurigere en snellere gegevens lijken te hebben. De twee belangrijkste waarden die we hebben zijn het totale aantal geïnfecteerden en de mensen die op dit moment geïnfecteerd zijn. Uit deze twee metrieken zullen we alles genereren.

de foto toont chats van volledig geïnfecteerde en momenteel geïnfecteerde mensen

Ziet er - nog - niet veel uit, maar laten we wat eenvoudige dingen vinden om eruit te komen:

Voorbereiding van de gegevens

Foto toont uitmuntende tabel met enkele cijfers

Ten eerste hebben we iets nodig waar we gemakkelijk mee kunnen werken. Hiervoor zal ik Excel gebruiken, want het is snel en gemakkelijk. Iets programmeren met Python zou ook kunnen werken, maar voor een kort project zou dat wel eens te veel werk kunnen zijn.

De gegevens die we hebben zijn in twee kolommen ingevoegd zoals hierboven weergegeven. Elke rij vertegenwoordigt een dag in de pandemie. De pandemie begon in Zwitserland op 25 februari.

Dagelijks nieuwe infecties

Een waarde die waarschijnlijk nuttig is, is nieuwe infecties. Ik zal deze gegevens niet verzamelen op Johns Hopkins University, maar zal ze uit het totaal van de infecties halen. Dit zal in de toekomst tijd besparen bij het kopiëren.

We hoeven alleen maar het totaal van de infecties van de vorige dag af te trekken van de infecties van de huidige dag.

de afbeelding toont nieuwe infecties per dag en 5d mediaan

Wat we kunnen zien is een kleine toename van de infecties in de afgelopen dagen, maar daarover later meer.

Totale genezing en gemiddelde duur van de infectie

De volledige genezing kan worden genomen door het berekenen van de totale infecties minus de momenteel geïnfecteerde. Ter illustratie zet ik de grafiek af tegen het totaal aantal geïnfecteerden.

De grafiek toont het totaal aantal geïnfecteerden en het totaal aantal genezen personen. Beide curven zien er gelijkaardig uit, op een horizontale verschuiving na.

Nou, dat laat misschien nog niet zo veel zien, behalve dat onze ziekenhuizen nog lang niet vol zijn. Bovendien kunnen we hieruit de besmettingsduur aflezen. Door het uitgeharde totaal naar links te verschuiven, zouden we de infectie tijd moeten krijgen als ze elkaar overlappen. Voor Zwitserland is dit 16 dagen, voor Duitsland 15 dagen. Dit lijkt binnen het meetbereik te liggen.

De grafiek toont het totale aantal geïnfecteerden en het totale aantal genezen. Deze tijd verschoven met het aantal dagen zodat ze elkaar overlappen

De infectie tijd zal later nuttig blijken voor de R-waarde

Genezen per dag

Screenshot van de vreemde bevindingen

Uit de totale genezing kunnen we de dagelijkse genezing genereren. Net als bij de dagelijkse nieuwe infecties trekken we de totale genezing van gisteren af van de totale genezing van vandaag.

Hier kreeg ik wat vraagtekens bij de methode van het verzamelen van deze gegevens door John Hopkins University. Blijkbaar zijn de genezen gevallen sinds 16 mei gemeld in partijen van 100, wat mij zeer vreemd lijkt:

Helaas moeten we ervan uitgaan dat de waarden correct zijn, maar ik zal het minder nauwkeurige gemiddelde moeten gebruiken in plaats van de mediaan. Ik vind de mediaan betrouwbaarder omdat deze effectief uitschieters verwijdert. Maar aangezien onze gegevens hier bestaan uit uitschieters, moeten we het gemiddelde gebruiken.

De grafiek toont het totale aantal geïnfecteerden en het totale aantal genezen. Deze tijd verschoven met het aantal dagen zodat ze elkaar overlappen

Daarnaast kunnen we nu ook dagelijks genezen en dagelijks geïnfecteerde patiënten bedekken.

de grafiek toont dagelijks genezen versus nieuw geïnfecteerde patiënten. de genezen patiënten blijven duidelijk achter bij de geïnfecteerde patiënten.

Wat we hier duidelijk kunnen zien is dat de herstelde patiënten consequent meer waren dan de nieuw geïnfecteerde per 1 april. Dit betekent in feite dat de ziekenhuizen vanaf die dag steeds minder werk hadden.

De mystieke R-waarde en de toekomst

Om de R-waarde te verkrijgen, moet men eerst de definitie van de R-waarde kennen. De definitie is als volgt:

"Deverwacht aantal van gevallen die rechtstreeks voortkomen uit een geval in een populatie waarin alle individuenkwetsbaar voor een wijninfectie."

Hoe komen we daar?

we hebben de belangrijkste informatie al.

- Hoe lang duurt een infectie gemiddeld? 16 dagen

- Hoeveel geïnfecteerde mensen zijn er op dit moment?

- Hoeveel nieuwe infecties zijn er per dag?

De dagelijkse R-waarde kan dan als volgt worden berekend:

(nieuwe infecties * duur van een infectie) / huidig aantal geïnfecteerde personen

Dit is het resultaat voor Zwitserland:

Kaart van de R-waarde

Daarnaast heb ik mijn eigen metriek gemaakt om te benadrukken of de zaken erger of beter worden. Meer groen dan lezen betekent dat het beter gaat. Meer rood dan groen betekent dat het erger wordt.

Hoe hoger of lager de waarden, hoe intensiever het effect.

de grafiek toont een metriek die ik persoonlijk nuttiger vond dan de r-waarde

Uh oh - de tweede golf zal op ons afkomen!

maar langzaam voor nu. Laten we eerst eens kijken naar deze twee metrieken uit Duitsland, met op de achtergrond Robert Kochs Guesstimated R-Value:

r waarde Duitsland ontwikkeling van infecties Duitsland

Duitsland heeft een soortgelijke curve. De stijgende R-waarde had net een kleine hobbel. Ook springt de infectiegebeurtenis als een gek rond op het einde.

Waarom is dat? Laten we eens kijken naar de gegevens rond 15 juni, net voor de piek:

We hebben in totaal 292 actieve gevallen en ~15 nieuwe gevallen per dag in Zwitserland. In feite is het aantal zo klein dat één enkele hotspot de waarden al drastisch zal doen kantelen. Een enkele korte piek is dus niet genoeg om te voorspellen dat de tweede golf zal komen.

Zoals sommigen misschien vermoeden, komt een virus niet en verdwijnt het dan voor altijd. Zo zijn er recentelijk weer gevallen van varkensgriep geconstateerd.

Ik betwijfel of we het virus volledig kunnen uitroeien (wat we momenteel proberen te doen). Het zal eerder evolueren naar iets waar wij mensen mee zullen moeten leven. Er zullen in de nabije toekomst hotspots zijn.

Ik verwacht echter niet dat er binnenkort een nieuwe 2de golf zal komen die vergelijkbaar is met de eerste. Wat er volgend jaar in januari/februari gebeurt, zal alleen de tijd leren.