Projektleitung

Prof. Dr. Stefan Bente

Informatik und Ingenieurwissenschaften
Cologne Institute for Digital Ecosystems (CIDE)

Projektleitung

Prof. Dr. Hartmut Westenberger

Informatik und Ingenieurwissenschaften
Cologne Institute for Digital Ecosystems (CIDE)

Ein Beitrag von

Monika Probst
Campus Gummersbach

Studenten entwickeln KI-Detektionsmodell

Master Digital Science ChatGPT (Bild: DeepAI.com/TH Köln)

Kann man den Unterschied zwischen menschlichen und KI-generiertem Coding noch erkennen? Mit dieser Frage haben sich zwei Studenten des Masterstudiengangs Digital Sciences beschäftigt. Und ein KI-Detektionsmodell entwickelt, das mit hoher Genauigkeit bestimmen kann, ob ein Code – bezogen auf seine Formatierung – von einem Menschen oder ChatGPT geschrieben wurde.

KI erhöht die Produktivität des Programmierens. Mit einem gut geschriebenen Prompt, also Befehl, spart man viel Zeit und vereinfacht sich den Umgang mit neuen Programmiersprachen. Aber kann man noch den Unterschied zwischen menschlichen und KI-generiertem Coding erkennen? Mit dieser Frage haben sich Marc Oedingen und Maximilian Hammer beschäftigt.

Die Studenten des Masterstudiengangs Digital Sciences haben ein KI-Detektionsmodell entwickelt, das mit hoher Genauigkeit bestimmen kann, ob ein Code – bezogen auf seine Formatierung – von einem Menschen oder ChatGPT geschrieben wurde. Betreut wurde das Projekt von den Professoren Dr. Stefan Bente und Dr. Hartmut Westenberger.

Genauigkeit von rund 97 Prozent

In dem Lehrforschungsprojekt waren die beiden Studenten Oedingen und Hammer Teil einer Studierendengruppe, die sich mit dem Einsatz von ChatGPT in der Lehre beschäftigt hat, konkret in den informations-technischen Studiengängen. „Wir haben währenddessen aber festgestellt, dass es im Coding-Bereich solche Detektionsmodelle noch nicht gibt und uns des-halb zu zweit darauf konzentriert,“ sagt Marc Oedingen.  Dabei konnten die Studenten anhand von acht verschiedenen Klassifikationsmodellen und einer durchschnittlichen Genauigkeit von 96.75 Prozent zeigen, ob ein Mensch oder ChatGPT hinter der Programmierung steckt.

In einem Proof of Concept haben Oedingen und Hammer zudem ein neuronales Netz trainiert, in dem sie Code in Zahlen konvertieren und das anspruchs-volle Problem der Differenzierung in ein binäres Klassifikationsproblem über-führen. Null steht für den Mensch, Eins für die Maschine. Klingt soweit einfach, komplexer wird es jetzt: Denn Formatierungstexte sind unterschiedlich lang. Um das neuronale Netz zu trainieren, mussten die Texte – beim Programmieren Tokens genannt – in gleichlange Vektoren umgewandelt werden. Dazu benutzen die beiden Studenten ein Embedding-Modell, in dem die Tokens in einem hochskalierten Vektorraum dargestellt werden können. In der Theorie liegen Tokens mit ähnlicher Bedeutung in diesem Raum nah beieinander, der Vektor hat immer die gleiche Länge. Die Praxis gestaltet sich jedoch oft schwieriger.

35.000 Codes zum Training

Unter anderem wurden mit dieser Technik  alle Code-Schnipsel, die sogenannten Snippets, zu dem binären Klassifikationsproblem aus Nullen und Einsen umgewandelt und darauf das neuronale Netz trainiert. Für das Training wurden 17.500 von einer KI und genauso viele von Menschen generierte Codes verwendet. Aufgrund der hohen Verfügbarkeit entschieden sich die beiden Informatiker für die Programmiersprache Python.

Erst-Autoren für wissenschaftliche Veröffentlichung

Die theoretischen Erkenntnisse fließen jetzt in eine wissenschaftliche Veröffentlichung, in der Oedingen und Hammer als Erst-Autoren stehen – das ist für beide Premiere. Ihre Professoren  sind vom Engagement der Studierenden und der Qualität der Arbeit sehr beeindruckt. „Dass aus den Ergebnissen jetzt ein wissenschaftliches Paper entsteht, ist idealtypisch für das Masterstudium“, sagt Stefan Bente, Professor für Informatik und Softwaretechnik.

Das KI-Detektionsmodell sei aber keine dauerhafte Lösung, sondern eine Momentaufnahme. „KI wird von solchen Modellen wie unserem lernen und adaptieren. Und dann liegt es wieder an uns, einen Umgang damit zu finden. Das ist ein Kreis-lauf, ein sich selbst verstärkender Prozess“, sagt Max Hammer.

Oktober 2023

Projektleitung

Prof. Dr. Stefan Bente

Informatik und Ingenieurwissenschaften
Cologne Institute for Digital Ecosystems (CIDE)

Projektleitung

Prof. Dr. Hartmut Westenberger

Informatik und Ingenieurwissenschaften
Cologne Institute for Digital Ecosystems (CIDE)

Ein Beitrag von

Monika Probst
Campus Gummersbach


M
M