Data-Mining der Covid-Zahlen

Story title image

Heute möchte ich ein wenig auf die Daten von Covid eingehen, da ich sehe, dass es definitiv eine gewisse Verwirrung gibt.

Der Hauptgrund, warum ich dieses Projekt startete, war die Aussage, dass Lockdown-Massnahmen an den "R-Wert" gebunden seien, und Wissenschaftler in den öffentlichen Medien sagten, der R-Wert könne nur geschätzt werden - für mich unglaublich. Lassen Sie uns also sehen, was wir herausfinden können.

Welche Daten stehen uns überhaupt zur Verfügung?

Ich werde die Daten von der John's Hopkins Universität verwenden, da sie bisher über präzisere und schnellere Daten zu verfügen scheinen. Die beiden wichtigsten Werte, die wir haben, sind die Gesamtzahl der Infizierten und die derzeit infizierten Personen. Aus diesen beiden Metriken werden wir alles generieren.

das Bild zeigt Chats von total Infizierten und aktuell Infizierten

Sieht - noch - nicht nach viel aus, aber lassen Sie uns ein paar einfache Dinge finden, die wir dort herausziehen können:

Vorbereitung der Daten

Bild zeigt excel Tabellenausschnitt mit einigen zahlen

Zunächst einmal brauchen wir etwas, mit dem wir leicht arbeiten können. Dazu werde ich Excel verwenden, da es schnell und einfach ist. Etwas mit Python zu programmieren könnte auch funktionieren, aber für ein kurzes Projekt ist das vielleicht zu viel Arbeit.

Die uns vorliegenden Daten werden wie oben gezeigt in zwei Spalten eingefügt. Jede Zeile steht für einen Tag in der Pandemie. Die Pandemie begann am 25. Februar in der Schweiz.

Tägliche Neuinfektionen

Ein Wert, der sich wahrscheinlich als nützlich erweist, sind die Neuinfektionen. Ich werde diese Daten nicht an der Johns Hopkins University erheben, sondern sie aus den Gesamtinfektionen herausholen. Das spart in Zukunft Kopierzeit.

Wir müssen nur die Gesamtinfektionen des Vortages von den aktuellen Tagesinfektionen abziehen.

das Bild zeigt Neuinfektionen pro Tag und 5d-Median

Was wir sehen können, ist ein kleiner Anstieg der Infektionen in den letzten Tagen, aber dazu später mehr.

Gesamtheilungen und Durschschnittliche Infektionsdauer

Die vollständig geheilten Personen können genommen werden, indem man die Gesamtinfektionen abzüglich der aktuell Infizierten berechnet. Zur Veranschaulichung stelle ich die Grafik den total Infizierten gegenüber.

Die Grafik zeigt die gesamte infizierte und die gesamte geheilte Menge. Beide Kurven sehen bis auf einen horizontalen Versatz ähnlich aus

Nun, das mag noch nicht so viel zeigen, außer dass unsere Krankenhäuser bei weitem nicht voll sind. Zusätzlich können wir daraus die Infektionszeit ablesen. Indem wir die geheilte Gesamtmenge nach links verschieben, sollten wir die Infektionszeit erhalten, wenn sie sich überlappen. Für die Schweiz sind das 16 Tage, für Deutschland 15 Tage. Das scheint im Bereich des Messbereichs zu liegen.

Das Diagramm zeigt die Gesamtzahl der Infizierten und die Gesamtzahl der Geheilten. Diesmal verschoben um die Anzahl der Tage, so dass sie sich überschneiden

Die Infektionszeit wird sich später für den R-Wert als nützlich erweisen

Geheilte pro Tag

Screenshot der seltsamen Befunde

Aus dem Geheilten insgesamt können wir das täglich Geheilte erzeugen. Ähnlich wie bei den täglichen Neuinfektionen subtrahieren wir die gestrige Gesamtheilung von der heutigen Gesamtheilung.

Hier habe ich einige Fragezeichen über die Methode der Erfassung dieser Daten durch die John Hopkins Universität erhalten. Anscheinend werden seit dem 16. Mai die geheilten Fälle scheinbar in Losen von 100 gemeldet, was mir sehr merkwürdig erscheint:

Leider müssen wir davon ausgehen, dass die Werte korrekt sind, aber ich werde den weniger genauen Mittelwert anstelle des Medians verwenden müssen. Ich finde den Median zuverlässiger, da er Ausreißer wirksam entfernt. Aber da unsere Daten hier aus Ausreißern bestehen, müssen wir den Mittelwert verwenden.

Das Diagramm zeigt die Gesamtzahl der Infizierten und die Gesamtzahl der Geheilten. Diesmal verschoben um die Anzahl der Tage, so dass sie sich überschneiden

Außerdem können wir jetzt täglich geheilte und täglich infizierte Patienten überlagern.

die Grafik zeigt die täglich geheilten gegenüber den neu infizierten Patienten. die geheilten Patienten liegen offensichtlich hinter den infizierten zurück

Was wir hier deutlich sehen können, ist, dass die genesenen Patienten durchweg mehr waren als die neu infizierten ab ~1. April. Das bedeutet im Grunde genommen, dass die Krankenhäuser von diesem Tag an immer weniger Arbeit hatten.

The mystic R-Value und die Zukunft

Um den R-Wert zu erhalten, muss man zunächst die Definition des R-Wertes kennen. Die Definition lautet wie folgt:

“Die erwartete Anzahl von Fällen, die direkt durch einen Fall in einer Population erzeugt werden, in der alle Individuen anfällig für wine Infektion sind.”

wie kommen wir dort hin?

die wichtigsten Informationen haben wir schon.

- Wie lange dauert eine Infektion durschnittlich an? 16 Tage

- Wie viele infizierte Personen gibt es aktuell?

- Wie viele Neuinfektionen gibt es pro Tag?

Der tagesaktuelle R-Wert kann dann wie folgt berechnet werden:

(Neue Infektionen * Dauer einer Infektion) / aktuelle Zahl der Infizierten

So sieht das Ergebnis für die Schweiz aus:

chart des R-Wertes

Zusätzlich habe ich meine eigene Metrik erstellt, um hervorzuheben, ob sich die Situation verschlechtert oder verbessert. Mehr Grün als gelesen bedeutet, dass es besser wird. Mehr rot als grün bedeutet, dass es schlechter wird.

Je höher beziehungsweise niedriger die Werte sind, desto intensiver ist die Wirkung.

das Diagramm zeigt eine Metrik, die ich persönlich nützlicher fand als den r-Wert

Oh oh - die zweite Welle wird über uns hereinbrechen!

aber erstmal langsam. Lassen Sie uns zunächst auch auf diese beiden Kennzahlen aus Deutschland zugreifen, mit dem Guesstimated R-Value von Robert Koch im Hintergrund:

r wert Deutschland infectionsentwicklung Deutschland

Deutschland hat eine ähnliche Kurve. Der steigende R-Wert hatte nur eine kleine Beule. Auch das Infektionsgeschehen springt am Ende wie verrückt umher.

Warum ist das so? Schauen wir uns die Daten um den 15. Juni herum an, kurz vor der Spitze:

Wir haben insgesamt 292 aktive Fälle und ~15 neue Fälle pro Tag in der Schweiz. Die Zahl ist in der Tat so gering, dass ein einziger Hot Spot die Werte bereits drastisch umwerfen wird. Ein einziger kurzer Spike reicht daher nicht aus, um vorherzusagen, dass die zweite Welle kommen wird.

Wie einige vielleicht vermuten, kommt ein Virus nicht, um dann für immer zu verschwinden. So wurden beispielsweise kürzlich wieder Fälle von Schweinegrippe festgestellt.

Ich bezweifle, dass wir das Virus vollständig auslöschen können (was wir gegenwärtig zu tun versuchen). Vielmehr wird es sich zu etwas entwickeln, mit dem wir Menschen leben müssen. Es wird in naher Zukunft Hotspots geben.

Ich rechne jedoch nicht damit, dass es in nächster Zeit eine neue 2. Welle ähnlich der ersten geben wird. Was nächstes Jahr im Januar/Februar passiert, wird die Zeit zeigen.