Ein Beitrag von

Christian Sander

Team Presse und Öffentlichkeitsarbeit

Neue Werkzeuge für automatisierte Web-Suchen

Benjamin Krumnow (Bild: privat)

Wie können Schwächen automatisierter Web-Messungen überwunden werden? Damit hat sich Dr. Benjamin Krumnow in seiner Dissertation beschäftigt. Betreut wurde seine Arbeit von Prof. Dr. Harald Vranken und Dr. Hugo Jonker von der Open University in den Niederlanden sowie Prof. Dr. Stefan Karsch von der Fakultät für Informatik und Ingenieurwissenschaften.

Wie erklären Sie Ihr Thema „Web Scrapology – Overcoming limits of automating web measurements” Ihren Nachbarn?

Web Bots oder einfach nur Bots sind automatisierte Web Clients, die Webseiten besuchen und mit ihnen interagieren. Sie sind ein gängiges Werkzeug, um große Datensätze zu erheben. Dies ist insbesondere für die Erforschung des Internets interessant, um signifikante Aussagen treffen zu können. Allerdings versuchen manche Webseiten, Automatisierungen zu verhindern, und nicht jede Aufgabe lässt sich ohne weiteres automatisieren. In meiner Arbeit habe ich das Ziel verfolgt, Hürden für automatisierte Web-Studien zu überwinden und die daraus resultierenden Effekte zu messen. Dabei habe ich mich auf den Bereich der Messung von Sicherheit und Privatsphäre im Web fokussiert.

Was haben Sie herausgefunden?

Für unsere Forschung haben wir die Hürden für Automatisierung in zwei Gruppen unterteilt: Zum einen gibt es Bereiche, die sich durch typische Eigenschaften des Webs nur schwer automatisiert untersuchen lassen. Dazu zählen Webseitenbereiche, die nur durch einen Login erreichbar sind. Zum anderen nutzen Webseitenbetreiber Methoden, um sich vor Bots zu schützen, wie das sogenannte Browser Fingerprinting. Dabei liest die Webseite Eigenschaften des Browsers aus, wie installierte Fonts, Bildschirmauflösung oder unterstützte Funktionen, um einen Nutzer eindeutig zu identifizieren. Dies kann aber auch dazu eingesetzt werden, um die Spuren von Automatisierungskomponenten eines Bots zu entdecken.

Für jede Gruppe haben wir mehrere Verfahren entwickelt, mit denen sich Hürden für Bots überwinden lassen. Dazu gehörte beispielsweise ein Bot, der Login-geschützte Bereiche identifiziert und mittels generalisierter Routinen überwinden kann. Wichtig dabei ist es, eine Datenbasis zu erheben, die einen validen Login ermöglicht. Wir haben dazu eine Crowdsourcing-Plattform für Logins verwendet. 

Anschließend haben wir gemessen, wie groß die Unterschiede in den Ergebnissen sind, wenn Untersuchungen mit bzw. ohne unserer Verfahren durchführt. Dabei konnten wir signifikante Abweichungen beobachten, unter anderem weil relevante Daten fehlen, wenn Hürden für Automatisierungen nicht adressiert werden.

Was begeistert Sie an Ihrem Thema?

Jedes Projekt während meiner Dissertation hat zu spannenden Aha-Effekten geführt. Im Besonderen hat mich dabei die Forschung zu IT-Sicherheitsthemen gereizt. Das Überwinden einer Hürde in einem System ist wie ein Zaubertrick, bei dem ich verstehen will, ob und wie er funktioniert.

Wie kann es mit Ihren Ergebnissen weitergehen?

Meine Arbeit hat einige Limitierungen in den Werkzeugen aufgedeckt, die zurzeit die Grundlage vieler Web-Messungen bilden. Es wird spannend sein zu sehen, wie Studien in der Zukunft mit diesen Limitierungen umgehen werden und welche weiteren Effekte dies auf Web-Messungen haben wird.

Juni 2024

Ein Beitrag von

Christian Sander

Team Presse und Öffentlichkeitsarbeit


M
M