Durch Einreißen von Sprachbarrieren Vielfalt schaffen

Prof. Dr. Stefan Sporn (Bild: Zena Bala)

08.10.2024

Prof. Dr. Stefan Sporn,
Honorarprofessor der TH Köln und Gründer der Audio Innovation Lab GmbH (www.audioinnovationlab.com) , Köln

Sprachliche Vielfalt ist grundsätzlich kulturelle Vielfalt. Sprachliche Vielfalt ist aber auch oftmals eine Barriere, die Vielfalt verhindert. Das Überwinden dieser Barriere war und ist eine Herausforderung. Das gilt nicht nur für das Miteinandersprechen, sondern auch für alle Waren und Dienstleistungen, die auf Sprache basieren. Dank Künstlicher Intelligenz (KI) wird es immer leichter, diese Barriere zu nehmen. Die Chancen sind riesig, manche der Risiken sind es auch.

Was kann für die Völkerverständigung Besseres passieren, als wenn wir uns einfach mal verstünden – zumindest wenigstens schon mal rein sprachlich. Google hat ein neues Tool angekündigt, das verbesserte Live-Übersetzungen möglich machen soll. Raumschiff Enterprise lässt grüßen. Aber auch die KI-Systeme für synthetische und synthetisierte Stimmen für professionelle AudioAnwendungen wie Synchronisationen von Kino-Filmen oder Werbeproduktionen haben sich in den vergangenen rund 24 Monaten geradezu exponentiell entwickelt.

Die KI-Systeme schaffen völlig neue kreative Möglichkeiten. Eine der faszinierendsten: Das Verwenden der Originalstimme für eine neue Sprachfassung. Beispiel: Die neue Data-Agenda-Podcast-Folge von Professor Rolf Schwartmann mit mir über das Thema KI-Audio (https://dataagenda.de/episode-59b-ai-voice-rights-how-digital-voices-work/ und https://dataagenda.de/folge-59-ki-stimme-recht-das-geht-mit-digitalen-stimmen/). Wir beide haben kein Wort der englischen Fassung gesprochen; das hat die KI auf Basis der deutschen Ausgangsfassung übernommen. Und dennoch sind es wir beide, die sprechen. Es sind unsere Stimmen. Und nichts ist authentischer als die Originalstimme. Das geht natürlich nicht nur mit einem Podcast, sondern auch mit YouTube-Videos und natürlich mit (Kino-) Filmen, TV-Serien, Dokumentationen. Es ist offensichtlich, welche Chancen und Möglichkeiten sich daraus ergeben: Content kann viel leichter, schneller und günstiger (!) einem anderen Publikum zugänglich gemacht werden. Das eröffnet neue regionale Märkte für z.B. Filme, die bisher nicht synchronisiert wurden, weil die Synchronisation entweder zu aufwendig und/oder zu teuer war im Verhältnis zu den Erlöserwartungen. Das gilt auch für YouTuber. Ein deutscher Let’s Player ist natürlich nur bei deutschsprachigen Followern bekannt und relevant. Das kann er jetzt ganz einfach ändern – durch eine KI-Fremdsprachenfassung. Einstmals ungeahnte Möglichkeiten – jetzt schlichte Realität.

Kann KI-Audio wirklich schon alles, was Stimme und Sprache kann? Eine rhetorische Frage, meist von Kritikern am Ganzen. Natürlich kann sie nicht alles; bei Bayerisch oder Sächsisch wird es schwierig. Aber natürlich „kann“ KI-Audio Emotionen. Man muss nur wissen, wie man sie aus dem System lockt. Das ist letztlich genauso wie das, was eine Regisseurin mit der Voice-Actress macht. Wenn sie das nicht weiß oder vermitteln kann, wird es auch bei traditioneller Produktionsweise nichts.

Damit zur nächsten Standardfrage: Schafft das den Menschen ab? Klare Antwort: Nein! Der Mensch bleibt der Schlüssel zu einem hochwertigen Ergebnis. Ohne Menschen wird es auch absehbar nicht funktionieren. Links rein, rechts raus – das geht, ist aber dann überwiegend Audiomüll. Es ändern sich dennoch Dinge für die Kreativen. Zunächst können die guten AutorInnen weiterhin beruhigt schlafen. Lippensynchron texten kann keine KI. Weniger rosig sind die Aussichten für SprecherInnen. Sie werden gebraucht, aber im Zweifel nur noch einmal; um sie aufzunehmen und ihre Stimmen auf Basis der Aufnahme zu synthetisieren. Dennoch: Es sollte eine Selbstverständlichkeit sein, sie für jede Nutzung zu vergüten. Und schließlich entsteht eine völlig neue Berufsgruppe: Die des KI-Audio-Producers. Das ist zukünftig eine Synthese aus Ton-Ingenieur, Regisseur und in Teilen auch des Cutters. Damit wird auch deutlich, warum wohl eine KI-Produktion (deutlich) günstiger sein muss: Weil sich der größte Kostenfaktor bei einer Produktion – der Umfang des menschlichen Einsatzes – verringert.

Und dann all die rechtlichen Probleme… Darf man das denn? Hier werden von interessierter Seite gerne Nebelkerzen geworfen. Unklar ist im Wesentlichen nur, wie die KI-Hersteller ihre Maschinen anfüttern dürfen. Die KI-Audio-Produktion als Anwenderin bewegt sich sicher nicht im rechtsfreien Raum. Manches wird sogar etwas schlichter. Bei den synthetisierten Stimmen geht es beispielsweise nicht um komplizierte Urheberrechte, sondern „nur“ um das Persönlichkeitsrecht. Das schützt aber auch umfänglich. Neu sind die Regelungen der KI-Verordnung. Wer muss was kennzeichnen – das ist ein Thema, das Juristen jetzt diskutieren.

Ganz klar gilt es neben den Chancen und großartigen Möglichkeiten auch immer die Risiken zu sehen. Der potentielle doppelte Missbrauch von Stimmen: Das Nutzen von Stimmen für das KI-Anfüttern oder für die KI-Anwendung, ohne dass vorher gefragt worden ist; oder die Verwendung einer Stimme eines Menschen, z.B. eines Politikers, für kriminelle Einsätze. Es zeigt sich hier in besonderer Weise die Macht des Wortes, die nicht missbraucht werden darf.

Wenn es gelingt, die KI positiv und sinnvoll zu verwenden, dann schafft sie neue kreative Möglichkeiten und letztlich auch mehr Vielfalt. Was ursprünglich eine Sprachbarriere war, ist dann eingerissen, und mehr Content kann mehr Menschen erreichen. Das ist doch gesellschaftlich mehr als wünschenswert.

Oktober 2024

M
M