Data Mining praktisch: Corona-Pandemie
Viel anwendungsnäher geht es wohl kaum: Am Campus Gummersbach haben die Professoren Dr. Thomas Bartz-Beielstein und Dr. Dietlind Zühlke kurzerhand das Wahlpflichtmodul Data Mining umgebaut, um an einem weltweiten Wettbewerb teilzunehmen, bei dem Prognosen und Vorhersagemodelle für die Covid-19-Epidemie entwickelt werden sollen.
Außerdem sollen Faktoren identifiziert werden, die die Übertragungsrate von COVID-19 beeinflussen. Aufgerufen hat die us-amerikanischen Online-Community Kaggle, der weltweit größten Einrichtung, die sich an Datenwissenschaftlerinnen und -wissenschaftler richtet.
Kaggle-Challenges
Auf Kaggle werden unter anderem die Daten, die die Johns Hopkins Universität täglich weltweit erhebt, für die über eine Million Teilnehmerinnen und Teilnehmer starke Community noch mal besonders aufbereitet. Jede Woche wird eine neue Challenge mit neuen Aufgaben formuliert. Dabei handelt es sich um konkrete Fragen, die von Behörden wie der WHO formuliert werden: Was wissen wir über nicht-pharmazeutische Interventionen in den verschiedenen Ländern wie Schulschließungen, Absage großer Versammlungen, Selbstisolierung? Was ist über die Übertragung, Inkubation und Umweltstabilität des Virus bereits bekannt, also über die regionalen Daten zu Temperatur, Feuchtigkeit und Luftverschmutzung? Und was ist bereits über die medizinische Versorgung veröffentlicht worden?
"Trainingswettbewerb" für Data-Mining- und Data-Literacy- Kompetenz
Die Resonanz der Studierenden war größer, als Bartz-Beielstein und Zühlke erwartet haben. Über 50 Bachelor- und Masterstudierende aus den verschiedenen Studiengängen der Fakultät, von der Informatik über Medieninformatik, Wirtschaftsinformatik bis zur Ingenieurwissenschaften haben sich angemeldet, um an dem Projekt teilzunehmen. Um sie an das Thema Data Mining heranzuführen und ihnen zu verdeutlichen, welche Anforderungen an die Disziplin Data Science gestellt werden, trainieren die Studierenden mit den Fragen, die in der ersten Wettbewerbswoche ausgeschrieben wurden. „Wir gehen dabei den gesamten Data-Mining-Prozess durch,“ erklärt Bartz-Beielstein die didaktische Herangehensweise.
„Wir haben ein ganz bunt gemischtes Team mit unterschiedlichen Hintergründen und Kompetenzen. Daher werden die Studierenden jetzt in kleine Teams aufgeteilt. So befassen sich die einen vorwiegend mit der Datenerhebung, andere mit der Aufarbeitung. Ein weiteres Team kümmert sich um ein Modell für die Vorhersage, das nächste bereitet die Ergebnisse allgemeinverständlich auf.“ Der Plan ist, nach dem Übungsszenario so gut aufgestellt zu sein, um in den kommenden Wochen an einer der Wettbewerbsfragen offiziell teilzunehmen. „Das hängt davon ab, wie kompetent sich die Studierenden in drei, vier Wochen fühlen. Die Teilnahme ist auch ein wenig offen. Wir müssen schauen, wie sich die Prozesse der Pandemie weiterentwickeln“, so Bartz-Beielstein. Denn vorrangig sollen die Studierenden eine möglichst breite Data-Mining- und Data-Literacy- Kompetenz erwerben. An den Ergebnissen sind auch die Kolleginnen und Kollegen des interdisziplinären Projekt DALI interessiert.
Das Engagement der Studierenden ist hoch. Viele nehmen an dem Modul teil, weil sie hier die Gelegenheit sehen, Lösungen für ein Problem mitzugestalten, das sie direkt betrifft. Das Hauptanliegen von Prof. Bartz-Beielstein und Prof. Zühlke ist, dass die Studierenden die in den Medien dargestellten statistischen und mathematischen Begriffe besser verstehen. „Bisher laufen diese Informationen in den Medien teilweise durcheinander. Manchmal habe ich den Eindruck, dass auch die Journalisten nicht wissen, was sie da genau schreiben. Ein Data Scientist muss diese Begriffe und Methoden aber verstehen“, sagt der Professor für Angewandte Mathematik.
Kapazitätsplanung für das Gesundheitsamt und die Krankenhäuser im Oberbergischen Kreis
Bartz-Beielstein hat darüber hinaus mit dem Oberbergischen Kreis ein Projekt gestartet. Hierbei entwickelt er derzeit auf Grundlage der Daten des Gesundheitsamts mit zwei weiteren Wissenschaftler ein Modell, um die lokalen Behörden bei der Datenauswertung und Prognose während der Corona-Epidemie zu unterstützen. „Hier geht es nicht darum, eine Vorhersage über die Pandemie-Entwicklung zu treffen. Wir sind keine Epidemiologien“, betont Bartz-Beielstein. Das Ziel ist vielmehr die Kapazitätsplanung für das Gesundheitsamt und die Krankenhäuser. Anhand der vorliegenden Zahlen zu Krankenhaus- und Intensivbetten, zu Mitarbeiterinnen und Mitarbeiter in den Krankenhäusern, zu Beatmungsgeräte und weiteren Parametern, kann das Forscherteam mit Modellen gute Kapazitätsprognosen treffen. „Es handelt sich dabei um klar definierte Bereiche, durch die wir errechnen können, wie lange die Kapazitäten im Wort-Case oder im Best-Case ausreichen werden. Letztlich ist das eine klassische Ressourcenplanung, die wir mit unterschiedlichen Szenarien durchführen.“ Und die nach seiner Einschätzung schon bald zum Einsatz kommen kann.
An dem Kooperationsprojekt ist neben der Fakultät für Informatik und Ingenieurwissenschaften und dem Oberbergischen Kreis auch die Bartz & Bartz GmbH beteiligt.
April 2020