Open Data Datenprojekt: Risklayer beendet Erfassung von Corona-Neuinfektionen

Piet Felber
Bildrechte: MDR/Markus Geuther

Zwei Jahre lang recherchierte das Datenprojekt Risklayer aus Karlsruhe die täglichen Corona-Fallzahlen deutschlandweit. Seine Datenbank nutzte auch MDR AKTUELL Online für die Berichterstattung. Am gestrigen Dienstag trugen Computer-Bots und Verifikatoren die Zahl der Neuinfektionen das letzte Mal für das Projekt zusammen.

Vor einer stilisierten Corona-Grafik steht "Corona-Daten - Fallzahlen"
Risklayer sammelte bei den 401 deutschen Städten und Kreisen zwei Jahre lang aktuelle Corona-Fallzahlen ein. Bildrechte: MDR

Es ist zwei Jahre her, dass Politik und Gesellschaft in Deutschland realisierten, dass sich das Coronavirus auch hierzulande zur Pandemie entwickelt hatte. Ein wichtiges Augenmerk lag damals bereits auf der Abbildung der Ausbreitungsgeschwindigkeit des Virus – und schnell wurde deutlich, dass die Berichterstattung der öffentlichen Stellen, vor allem des Robert Koch-Instituts, dem Informationsinteresse der Öffentlichkeit und dem Tempo des Virus kaum gerecht werden konnte.

Unabhängige Datenprojekte werden 2020 Korrektiv zum RKI

Als Bundesregierung und Bundesländer am 16. März 2020 die ersten abgestimmten bundesweiten Lockdown-Regeln vereinbarten, taten sie das auf Grundlage der bekannten Fallzahlen. Nur unterschieden sich zu diesem Zeitpunkt die Daten des Robert Koch-Instituts und die von anderen Quellen erheblich. Während Risklayer am Abend des 16. März 2020 in seiner Datenbank bereits mehr als 8.900 Fälle verzeichnete, lag der letzte verfügbare Stand beim RKI zu diesem Zeitpunkt bei reichlich 6.000 Fällen.

Projekte wie das des Karlsruher Unternehmens Risklayer hatten schnell erkannt, dass das Meldeverfahren, über das die Zahlen zum RKI gelangen, zu lang ist, um ein möglichst genaues aktuelles Bild von der Ausbreitung des Coronavirus zu zeichnen. "Als wir anfingen, gab es keine konsistente Datenbank, und die Meldung der Fälle unterlag massiven Verzögerungen und war teilweise fehleranfällig", erinnert sich James Daniell, einer der Geschäftsführer des Forschungs- und Beratungsunternehmens Risklayer.

Einige Medien, wie die "Zeit" oder – in Zusammenarbeit mit Risklayer – der "Tagesspiegel" boten schnell Informationsportale mit den aktuellen, täglichen Fallzahlen an.

Updates im Halbstunden-Takt

Bei ihnen konnte man sich im Tagesverlauf über die steigenden Zahlen informieren, mit Updates im Halbstunden-Takt. Auf MDR.de bot MDR AKTUELL bei der bundesweiten Coronavirus-Berichterstattung wenig später ebenfalls die Zahlen von Risklayer an – nicht ahnend, dass uns das für zwei Jahre begleiten würde. Die Zusammenarbeit wurde möglich, weil Risklayer sich als Open-Data-Projekt versteht: Die Datenbank der Wissenschaftler über die Coronavirus-Fälle stand jedem Interessierten als Google-Tabelle offen.

Der "Trick" der Corona-Daten-Projekte war ganz einfach – und eigentlich kein Trick, sondern zwangsläufig: Anders als das RKI ließen sich diese Datenprojekte die Daten zu den Neuinfektionen nicht von untergeordneten Institutionen zutragen, sondern holten sie sich selbst auf der untersten Ebene des Meldesystems ab, nämlich bei den Kreisen und Städten.

Ein Corona-Infektionsfall wird zum offiziellen Fall, wenn ein Labor einem Gesundheitsamt ein positives PCR-Testergebnis meldet. Die überwiegende Mehrzahl der Kreise und Städte, denen die Gesundheitsämter zugeordnet sind, haben zu Beginn der Pandemie (und viele tun es auch heute noch) ihre Fallzahlen in täglichen Updates auf ihren Webseiten oder per Pressemitteilung veröffentlicht. Sobald sie veröffentlicht sind, können die Datenprojekte die Fälle in ihren Angeboten verwerten.

24 bis 72 Stunden Meldeverzug beim RKI

Parallel dazu werden die Fälle von den Kreisen und Städten an zuständige Landesbehörden weitergemeldet, die oft die Fälle wiederum gebündelt auf ihren Plattformen bekannt geben. Je nachdem, wann die Kreisebene ihre Updates verschickt und wann im Tagesverlauf die Landesebene ihre Angaben aktualisiert, kann bereits hier ein Meldeverzug von mehr als 24 Stunden entstehen. Dann sind die Daten aber immer noch nicht beim RKI.

Denn die Landesbehörden melden ihre Fälle wiederum mit mehr oder weniger großen Meldeverzügen weiter zum RKI. So kann es sein, dass das RKI Kenntnis von einem Fall erlangt, obwohl er der Öffentlichkeit von Kreis oder Stadt schlechtestenfalls schon mehr als 48 Stunden zuvor mitgeteilt wurde.

Über Risklayer und die Arbeit mit Corona-Fallzahlen Risklayer ist ein mit dem Karlsruher Institut für Technologie verbundenes Beratungsunternehmen, das seit 2009 Informationen und Daten zu Naturkatastrophen zusammenträgt. Die Wissenschaftler um James Daniell fertigen außerdem Analysen und Modellrechnungen.

Für die Recherche der aktuellen Corona-Fallzahlen nutzte Risklayer unter anderem "Scraping"-Methoden. Das heißt, die Daten wurden von den Internetseiten der Kreise, Städte und Institutionen größtenteils automatisiert gesammelt und zusammengeführt. Mehr als 5.000 Datenquellen wurden nach Angaben von Risklayer genutzt.

Zum anderen starteten die Projektverantwortlichen eine Crowdsourcing-Initiative. Freiwillige konnten von zu Hause aus dabei mithelfen, die neuesten Daten zusammenzutragen. Zu Beginn der Pandemie halfen 60 Menschen bundesweit mit. Die Zahlen gelangten erst nach einem mehrstufigen Prüfverfahren in die Datenbank. Drei Personen mussten bestätigen, dass es sich um eine seriöse Quelle und nachvollziehbare Daten handelt.

Zahlen wurden zum Politikum

Im Verlauf der Pandemie haben immer mehr Kreise aufgehört, umgehend über ihnen bekannt gewordene Neuinfektionen zu berichten. Sie sind etwa dazu übergegangen, die Angaben zu übernehmen, die das RKI macht. Das heißt: Ein Kreis erlangt Kenntnis von einem Fall, meldet ihn – ohne ihn selbst in einer eigenen Statistik zu veröffentlichen – weiter, irgendwann findet er Eingang in die RKI-Statistik und wird wiederum vom Kreis kommuniziert. Der Meldeweg mit entsprechenden Verzögerungen hat sich an dieser Stelle weiter verlängert – sehr zum Nachteil der Datenprojekte. Für einige Kreise mag es politisch vorteilhaft gewesen sein, wider besseres Wissen durch den Meldeverzug verzerrte Zahlen zu kommunizieren.

An anderer Stelle wurde das Meldeverfahren auch verbessert: "In der dritten und vierten Welle hat das RKI deutlich aufgeholt", sagt James Daniell, und auch die Kreise hätten ihre Daten nun teilweise auch schneller zum RKI bekommen.

Die vom RKI berechnete Sieben-Tage-Inzidenz lag dennoch beinahe immer unter der von Risklayer kalkulierten. Große Unterschiede zwischen den Angaben deuteten auf sehr lange Meldeverzüge für die betreffenden Kreise hin – umso mehr, da das RKI für die Berechnung der Inzidenz den Tag heranzieht, an dem ein Fall vom Labor gemeldet wurde.

RKI beharrte auf Meldeverfahren

Für die Öffentlichkeit waren und sind Datenprojekte wie jenes von Risklayer also wichtiges Korrektiv bei der Bewertung des Infektionsgeschehens. Wie sie von Anfang an beim RKI angekommen sind, lässt sich indes nur zwischen den Zeilen herauslesen, ein gewisses Zähneknirschen konnte die Behörde aber nie verhehlen. In der Antwort auf eine Anfrage zum Meldeverfahren von MDR AKTUELL im April 2020 antwortete das RKI unter anderem: Den Datenprojekten lägen die Zahlen "zwar schnell vor", deren Angaben ließen "aber nur begrenzte Schlüsse auf die Entwicklung zu, da nähere Informationen zu den Fällen fehlen und die Berichterstattung der Bezugsquellen nicht einheitlich ist". Bis zum Vorliegen der RKI-Daten könne zwar etwas Zeit vergehen, durch die Ergänzung von Angaben hätten diese aber "hohe Qualität".

Dass die Daten der anderen nur begrenzte Schlüsse auf die Entwicklung zuließen, muss man im Nachhinein klar eine Fehleinschätzung nennen. Denn die Zahlen beispielsweise von Risklayer haben stets die Entwicklungen vorweggenommen, die auch das RKI später konstatierte. Und das betraf nicht nur die Phasen ansteigender Fallzahlen, sondern auch sinkender: Nicht nur einmal berief sich die Politik bei der Aufrechterhaltung von Corona-Schutzmaßnahmen auf weiterhin steigende oder stagnierende Infektionszahlen, obwohl Datenprojekte längst ein paar Tage fallende Zahlen auswiesen.

An den Wendepunkten der Inzidenz-Kurve war das RKI jedenfalls immer ein paar Tage hinterher.

Viele Leerstellen bei den Corona-Daten

Das RKI hat es Datenjournalisten zudem nicht immer ganz einfach gemacht – auch im Bezug auf andere Corona-Daten: Beim Impfquoten-Monitoring, das das RKI in Form von Excel-Tabellen auf seiner Seite anbietet, wurden teilweise ohne Ankündigung Spalten ergänzt oder getauscht, sodass Skripte, mit denen sich die Daten automatisiert auslesen ließen, nicht mehr fehlerfrei arbeiteten.

Die ab einem gewissen Zeitpunkt so wichtige Hospitalisierungsinzidenz konnte das RKI wochenlang überhaupt nicht tagesaktuell bereitstellen – und als es die Daten schließlich gab, waren sie wegen eines noch einmal deutlich längeren Meldeverzugs kaum brauchbar. An solchen Leerstellen setzte Risklayer stets an, indem es beispielsweise die Hospitalisierungsdaten auf Kreisebene einsammelte, sofern es die Daten gab. Da die Mehrheit der Kreise und Städte die Zahl der Krankenhausaufnahmen aber seit Beginn der Pandemie nicht mitteilte, konnte auch Risklayer hier keine lückenlose Datenbasis liefern.

Für die Wissenschaftler um James Daniell gab es weitere Gründe, die sie nun zum Aufhören bewegten. So würden die gebietsweise nicht ausreichenden Test-Kapazitäten und die abnehmende Bereitschaft in der Bevölkerung, sich testen zu lassen, die Zahlen verzerren, sagt James Daniell und bringt es so auf den Punkt: "All das führt in Deutschland zu unbekannten Fallzahlen." Und wenn man keine innovativen Daten mehr anbieten könne, wolle man es lieber lassen.

Risklayer betreibt Katastrophenforschung

James Daniell ist Katastrophenforscher, die Übersetzung seiner englischsprachigen Berufsbezeichnung "risk engineer", also "Risiko-Ingenieur", klingt etwas verdreht. Schließlich geht es ihm nicht um die Schaffung von Risiken, sondern um die Evaluierung von Gefahren, um die Wirtschaft, die Gesellschaft, die Menschheit resilienter gegen zunehmende Bedrohungen zu machen.

Risklayer monitort Katastrophenfälle rund um den Globus: Erdbeben, Hochwasser, Seuchenausbrüche. Für die Weltbank hat das Unternehmen etwa eine Datenbank mit allen Schulen weltweit erarbeitet – auf dieser Grundlage lassen sich nun Vorhersagen für benötigte Hilfsgelder nach Erdbebenkatastrophen treffen. Auch die Auswirkungen des Ukraine-Kriegs beschäftigen die Wissenschaftler nun.

Bei MDR AKTUELL werden wir die Berichterstattung über Corona-Fallzahlen nun mit den Zahlen des RKI abdecken – und diese dabei weiterhin kritisch hinterfragen.

Dieses Thema im Programm: MDR FERNSEHEN | MDR AKTUELL | 07. März 2022 | 19:30 Uhr

0 Kommentare

Mehr aus Deutschland

Geschlossene Außengastronomie an der Königstraße in Stuttgart. 1 min
Bildrechte: IMAGO / Arnulf Hettrich
1 min 03.07.2022 | 19:02 Uhr

Die Infektionszahlen und auch die Corona-Patientenzahlen (Bild) in den Krankenhäusern steigen. Was ist noch in diesem Sommer und dann im Herbst an Schutzmaßnahmen zu erwarten? Dazu Nina Amin.

MDR AKTUELL So 03.07.2022 17:07Uhr 00:53 min

https://www.mdr.de/mdr-aktuell-nachrichtenradio/audio/audio-2069928.html

Rechte: MITTELDEUTSCHER RUNDFUNK

Audio

Mehr aus Deutschland

Yasmin Fahimi in der 31. Sitzung des Deutschen Bundestages 1 min
Bildrechte: IMAGO / Future Image
1 min 03.07.2022 | 13:33 Uhr

DGB-Chefin Fahimi schlägt angesichts der Energiekrise vor, Heiz- und Stromkosten für Privatverbraucher zu deckel. Pro Kopf sollte es eine bestimmte Menge zu bezahlbaren Tarifen geben, darüber hinaus würde es teurer.

MDR AKTUELL So 03.07.2022 12:05Uhr 00:53 min

https://www.mdr.de/mdr-aktuell-nachrichtenradio/audio/audio-2069752.html

Rechte: MITTELDEUTSCHER RUNDFUNK

Audio
Menschen nehmen an einer Pride-Parade teil 3 min
Bildrechte: dpa
Besuchende warten auf dem Flughafen an verschiedenen Schaltern. 3 min
Bildrechte: MITTELDEUTSCHER RUNDFUNK
Mehrere Körbe Erdbeeren liegen auf einem Tresen. 4 min
Bildrechte: MDR/Carolin Büscher