Über Coronavirus-Analysen und Berichterstattung

2020-04-28

Die Entwicklung der COVID-19-Coronavirus-Epidemie hat ein enormes Interesse an der Analyse der verfügbaren Daten ausgelöst. Es gibt zahlreiche Daten zu diesem Thema, die leicht verfügbar sind, was diese Aufgabe besonders einfach erscheinen lässt.

Sowohl offizielle Institutionen als auch Einzelpersonen haben eine Vielzahl von Visualisierungen unterschiedlicher Qualität und praktischer Nützlichkeit erstellt. Ich muss zugeben, dass ich nach dem Anschauen einiger dieser Visualisierungen ziemlich enttäuscht war. Die meisten von ihnen, oft optisch ansprechend, weisen erhebliche Mängel auf. Wir werden hier nicht auf die Details eingehen; diejenigen, die an diesem Thema interessiert sind, können einige kritische Gedanken hier finden. Das Wichtigste ist, dass die meisten dieser Visualisierungen keinen wirklichen Beitrag zur Entscheidungsfindung leisten. Selbst wenn sie vertrauenswürdige Daten präsentieren, tun sie dies oft auf die falsche Art und Weise. Typischerweise geben sie Antworten auf die Fragen „Was ist bereits passiert?“ oder „Wie sieht die aktuelle Lage aus?“ – was an sich nicht schlecht ist. Gleichzeitig erschweren sie es jedoch, herauszufinden, „wie sich die Situation verändert hat“, ganz zu schweigen vom wichtigsten Aspekt: „Was wird/kann in der Zukunft passieren?

Natürlich wurden viele Versuche unternommen, diese letzte Frage zu beantworten. Die Verfügbarkeit verschiedener Daten hat viele Amateure – sowohl in Bezug auf Epidemiologie als auch auf Datenverarbeitung – dazu gebracht, ihre „Modelle“ zu erstellen und zu veröffentlichen. Diese Aktivitäten waren insbesondere in den frühen Phasen der Epidemie sichtbar. Die „Modelle“ waren sehr oft nicht mehr als eine exponentielle Regression basierend auf wenigen verfügbaren Datenpunkten. Sehr einfach, was könnte schon schiefgehen, richtig? Offenbar haben viele Menschen scheinbar dasselbe getan, mit scheinbar denselben Daten, und sie… erhielten völlig unterschiedliche Ergebnisse. Das Einzige, was allen gemeinsam war, war, dass die Kurve schnell anstieg. Aber das war auch ohne ein „Modell“ offensichtlich. Wir werden gnädig darauf verzichten, Beispiele zu nennen. Tatsächlich scheinen die skandalösesten Modelle im Internet nicht mehr leicht auffindbar zu sein.

Wir werden hier nicht versuchen, eine weitere Visualisierung zu zeigen – es gibt genug davon. Ebenso wenig werden wir versuchen, ein weiteres prädiktives Modell für den Verlauf der Epidemie zu erstellen. Obwohl wir Experten für Daten sind, überlassen wir die Modellierung der Ausbreitung von Krankheiten definitiv lieber den Fachleuten der Epidemiologie. Stattdessen beginnen wir mit etwas sehr Einfachem: den grundlegenden Fakten und Kennzahlen. Warum? Weil sie das Fundament jeder Business-Analyse sind, nicht nur der zum Coronavirus.

Fakten, Dimensionen und Kennzahlen

Im Fall der Coronavirus-Krankheit ist das atomare Ereignis eine Infektion. Mit anderen Worten: Infektionen sind unsere Fakten. Nun, was sind die grundlegendsten Kennzahlen zu diesen Fakten? Natürlich ist es die Anzahl der Infektionen, und darauf konzentrieren wir uns. Jede Infektion tritt zu einem bestimmten Zeitpunkt auf, an einem bestimmten geografischen Ort und bei einer Person mit bestimmten Merkmalen (Alter, Geschlecht, Beruf usw.). Dies sind die potenziellen Dimensionen. Die wichtige hier, und die in nahezu jeder Business-Analyse am häufigsten vorkommende, ist die Zeit. Deshalb nehmen wir diese als Beispiel.

Unmittelbar können wir die erste Kennzahl ableiten: die Gesamtzahl der Infektionen, oder genauer gesagt die kumulative Zahl der Infektionen bis heute. Dies ist die Kennzahl, die in allen Tabellen und Visualisierungen am häufigsten gezeigt wird. Typischerweise bezieht sich das Datum auf „heute“. Wenn wir jedoch genauer auf diese Kennzahl schauen, würden wir feststellen, dass sie der Gesamtzahl der Webseitenbesuche, der Gesamtzahl der Kunden oder dem Gesamtumsatz (bis heute) ähnelt. Das sind alles Vanity-Metriken. Sie werden definitionsgemäß immer wachsen. Gleichzeitig enthalten sie nur sehr wenig nützliche Informationen darüber, wie es tatsächlich läuft.

Daher sind wir nicht so sehr an der kumulativen Zahl der Infektionen bis heute interessiert. Wir schauen uns lieber die tägliche Zahl der (neuen) Infektionen an. Die geschäftlichen Äquivalente wären beispielsweise die tägliche Anzahl der Webseitenbesuche oder der tägliche Umsatz. Aus dieser Kennzahl können wir leicht erkennen, ob der Trend (zunehmend, stabil, abnehmend) ist oder ob Montag immer der schlechteste Wochentag ist. Diese ist nützlich.

Schauen wir uns also an, wie das auf einem Diagramm aussieht. Wie bereits erwähnt, sind die Daten leicht verfügbar, ebenso wie die Diagramme. Einer der beliebtesten Dienste, die kuratierte Daten und einige Diagramme zeigen, ist Worldometer. Da wir in Berlin ansässig sind, werfen wir einen Blick auf die Daten zu Deutschland. Die offizielle Quelle für deutsche Daten ist das Robert Koch-Institut. Es gibt auch viele weitere Informationen und wissenschaftliche Studien auf deren Website, daher lohnt es sich, sie zu lesen, wenn Sie Deutsch verstehen.

Die Worldometer-Tabelle Daily New Cases für Deutschland wird täglich aktualisiert, es gibt jedoch keine Archivdaten. Zum Zeitpunkt des Schreibens sah sie so aus:

Tägliche neue Coronavirus-Fälle in Deutschland am 28.04.2020 laut Worldometer. X-Achse angepasst, um Daten nach dem 01.03.2020 zu zeigen.

Die entsprechenden Diagramme des RKI finden sich in den Täglichen Lageberichten (täglich aktualisiert, Archiv verfügbar). Zum Zeitpunkt des Schreibens sah es so aus:

Tägliche neue Coronavirus-Fälle in Deutschland am 28.04.2020 laut RKI.

Nicht alle Daten sind gleich

Es dauert nicht lange, bis man erkennt, dass sie erheblich unterschiedlich sind. Es handelt sich nicht nur um eine unterschiedliche Skalierung der Y-Achse oder eine abweichende grafische Darstellung. Es sieht aus, als ob sie auf völlig unterschiedlichen Daten basieren. Doch das ist nicht der Fall – Worldometer verwendet die offiziellen Daten des RKI. Zweifellos stammen die Quelldaten aus derselben Quelle.

In beiden Fällen verwenden wir scheinbar die gleiche Kennzahl: die Anzahl der (neuen) Infektionen , aggregiert und gegen dieselbe Dimension dargestellt: Datum. Bei genauerem Hinsehen erkennen wir jedoch, dass „Datum“ bei Worldometer das „Meldedatum“ bedeutet. Das RKI hingegen verwendet das „Datum des Symptombeginns“ (falls bekannt) oder das „Meldedatum“ (falls das Datum des Symptombeginns nicht bekannt ist). Tatsächlich haben wir hier zwei deutlich unterschiedliche Dimensionen, die unter demselben Namen „Datum“ getarnt sind. Diese einfache Beobachtung ist von entscheidender Bedeutung und wird in einem separaten Beitrag erörtert.

Genauer gesagt, werden die Werte auf der RKI-Darstellung gegen zwei verschiedene Dimensionen auf derselben X-Achse aufgetragen. Dies ist eine sehr seltene Vorgehensweise, die wir normalerweise nicht empfehlen würden. In diesem Fall erfüllt eine solche Darstellung jedoch einen Zweck.

Den Prozess verstehen

Um zu verstehen, warum das wichtig ist, müssen wir zuerst den Mess- und Meldeprozess verstehen. In einer idealen Welt möchten wir das Infektionsdatum berichten. Natürlich kennen wir dieses Datum in der Realität nicht. In der Wissenschaft versuchen wir, wenn wir einen bestimmten Wert nicht direkt messen oder berechnen können, ihn zu schätzen. Überlegen wir also, was die beste Schätzung dafür wäre.

Der Ablauf der gesamten Infektions- und Diagnosekette (stark vereinfacht für diesen Beitrag) könnte wie folgt aussehen: Eine Person wird infiziert, entwickelt nach einigen Tagen Symptome, Proben werden entnommen, dann ins Labor geliefert, dort verarbeitet, Ergebnisse werden erhalten und diese durch offizielle Kanäle gemeldet. Im Allgemeinen können Symptome in jeder Phase der Abfolge auftreten, theoretisch sogar nach der offiziellen Meldung oder gar nicht. Wer mehr Details erfahren möchte, kann die Website des RKI besuchen.

Wichtig für unsere Überlegungen ist, dass es mehrere Schritte und damit auch mehrere potenzielle Zeitstempel gibt. Die Verzögerungen zwischen den Schritten betragen Stunden oder Tage, sind variabel und aus der Perspektive der Dynamik des Prozesses, den wir darstellen möchten, signifikant. Anders gesagt: Ein heute gemeldeter Fall könnte vor 3 Tagen oder vor 10 Tagen infiziert worden sein. Wenn wir nochmals auf die vereinfachte Abfolge der Ereignisse schauen, sollte klar werden, dass diese variablen Verzögerungen vor allem aus dem Diagnose- und Meldeverfahren resultieren. Erkennt man diesen Fakt, kann man auch die plötzlichen Spitzen und wöchentlichen Schwankungen in der Worldometer-Darstellung erklären.

Wie wir sehen, ist das Meldedatum der allerletzte Zeitpunkt im gesamten Prozess. Es unterscheidet sich auch stark vom Infektionsdatum, das wir eigentlich suchen. Das nächstgelegene Datum ist das Datum des Symptombeginns. Logischerweise verwendet das RKI dieses Datum als beste Schätzung. Das Ergebnis ist eine glattere Darstellung ohne die durch Unregelmäßigkeiten im Test- und Meldeprozess verursachten Spitzen oder Einbrüche. Sie bildet den Prozess, der uns interessiert, viel besser ab. Das Problem ist, dass in vielen Fällen das Datum des Symptombeginns unbekannt ist oder nicht angegeben werden kann. Diese Fälle dürfen nicht ignoriert oder weggelassen werden, weshalb sie nach dem einzigen sicheren und verfügbaren Datum dargestellt werden – dem Meldedatum. Wie oben erwähnt, stehen wir der Idee, zwei verschiedene Dimensionen in einem Bericht zu mischen, skeptisch gegenüber und würden eine solche Praxis im geschäftlichen Kontext normalerweise nicht empfehlen. Gleichzeitig erkennen wir klar den Vorteil, wann immer möglich die beste Schätzung zu verwenden.

Die Geschichte ändern

Die vom RKI gewählte Darstellungsweise hat noch eine weitere wichtige Eigenschaft: Sie kann rückwirkend geändert werden. Ein heute gemeldeter Fall könnte den Symptombeginn vor 8 Tagen gehabt haben, während die Symptome bei einem anderen Fall (zumindest theoretisch) erst in 2 Tagen auftreten könnten. In beiden Fällen müsste die gesamte Darstellung aktualisiert werden, nicht nur das aktuellste Datum.

Änderungen im RKI-Bericht über tägliche neue Coronavirus-Fälle innerhalb einer Woche, 21.04.2020 – 28.04.2020.

Die Abbildung zeigt, wie sich der RKI-Bericht innerhalb einer Woche, vom 21.04.2020 bis 28.04.2020, verändert hat. Bemerkenswert sind die rückwirkenden Änderungen der letzten Tage sowie die Anpassungen von Zahlen, die bis zu mehrere Wochen zurückreichen.

Das haben wir schon erlebt

Solche Phänomene sind nicht ungewöhnlich. In vielen Anwendungen kommt es vor, dass Ereignisse mit einer erheblichen Verzögerung gemeldet werden und nicht notwendigerweise in der Reihenfolge ihres Auftretens. Viele moderne Datenverarbeitungssysteme verfügen über integrierte Funktionen, um mit solchen verspäteten Meldungen problemlos umzugehen. Die Konsequenz ist jedoch, dass der Bericht für den letzten Monat, der heute erstellt wird, sich erheblich von demselben Bericht unterscheiden wird, der in einer Woche erstellt wird. Viele Stakeholder in Unternehmen empfinden diese Volatilität in ihren Berichten als unangenehm. Dies führt oft dazu, dass einfache und stabile „Worldometer-ähnliche“ Berichte den vorzuziehenden, aber auch aufwendigeren und volatileren „RKI-ähnlichen“ Berichten vorgezogen werden. Selbst wenn letztere eine bessere Basis für eine datengetriebene Entscheidungsfindung bieten.

Wie oben gezeigt, gibt es selbst bei einer relativ einfachen Datenanalyse mehrere Entscheidungen zu treffen. Abhängig davon, wie sie getroffen werden und wie der gesamte Prozess der Datenerfassung und -analyse durchgeführt wird, können Berichte über (scheinbar) dieselben Kennzahlen, die auf genau denselben Daten basieren, erheblich variieren. Eine klare Definition der relevanten Kennzahlen und Dimensionen ist der Ausgangspunkt für jedes Unternehmensreporting. Wenn dies korrekt durchgeführt wird, kann es den weiteren Entscheidungsprozess erheblich erleichtern. Wenn dies vernachlässigt oder unachtsam durchgeführt wird, führt es zu Diskrepanzen, Missverständnissen und falschen Schlussfolgerungen.

Read More