TREC-COVID Challenge: Forschung zur zuverlässigen Informationssuche über COVID-19
In der aktuellen Pandemielage sind Forschende, medizinisches Fachpersonal und politische Entscheidungsträger ständig auf der Suche nach zuverlässigen Informationen über das Virus. Die konstante Flut an neuen Informationen muss daher durchsuchbar und handhabbar sein. Forschende des Information Retrieval (IR) und der automatischen Textverarbeitung können hier einen wertvollen Beitrag leisten.
Zuverlässige Informationsstrukturen aufbauen
Es gilt nun, wissenschaftliche Informationssysteme so weiterzuentwickeln, dass sie mit den sich ständig ändernden Ereignissen und Erkenntnissen umgehen können. Hierzu organisiert das NIST, das US-amerikanische National Institute of Standards and Technology, zusammen mit dem Allen Institute for Artificial Intelligence die sogenannte TREC-COVID Challenge. Das Ziel dieser Challenge ist der Aufbau und die wissenschaftliche Bewertung von Infrastrukturen und Systemen zur Unterstützung der Suche nach relevanten Informationen zu COVID-19. Im Rahmen dieser internationalen Challenge entwickeln weltweit Forschungsgruppen innovative Such- und Retrievalverfahren, die für eine zuverlässige Informationsversorgung genutzt werden können. Die Hoffnung ist, dass die Ergebnisse der TREC-COVID Challenge Antworten auf einige der Fragen von heute liefern und gleichzeitig eine Infrastruktur zur Verbesserung der Suchsysteme von morgen aufbauen.
Details zur Challenge
Die zweite Runde startet am 4. Mai. Weitere Informationen zu Challenge finden Sie auf der Projektseite von TREC-COVID.
Der Beitrag der Information Retrieval Group an der TH Köln
Die Challenge ist in mehrere Runden unterteilt, so dass kontinuierlich neue Ideen und Erkenntnisse eingebracht werden können. An der ersten Runde nahmen 56 internationale Forschungsgruppen teil. Die Information Retrieval Group an der Technischen Hochschule Köln unter der Leitung von Prof. Philipp Schaer war von der ersten Stunde an bei dieser internationalen Zusammenarbeit dabei. Der Promovend Timo Breuer, der an zuverlässigen und reproduzierbaren Suchverfahren forscht, entwickelte mit dem Team drei unterschiedliche Systeme, die in die Challenge eingebracht wurden. Die Systeme verfolgen einen zweistufigen Ansatz, bei dem zunächst die Dokumentkollektion mit einem etablierten Suchalgorithmus vorgefiltert wird. Im darauf folgenden Schritt werden die so gefundenen Dokumente anhand eines domänenspezifisch angepassten Algorithmus' umsortiert. Hierzu verwenden die drei Systeme extrahierte Daten aus wissenschaftlichen Fachinformationssystemen wie z.B. PubMed. Im Sinne der offenen Wissenschaft wurde die Dokumentation sowie die Software als Open Source veröffentlicht und steht für Interessierte zur Verfügung.
24.04.2020
April 2020