Echtes Hörerlebnis für digitale Welten
In virtuellen Anwendungen und Games sind nicht nur eindrucksvolle bildliche Darstellungen wichtig, sondern auch eine authentische Akustik. Damit hat sich Johannes M. Arend vom Institut für Nachrichtentechnik in seiner Promotion auseinandergesetzt. Im Interview spricht er über den natürlichen Höreindruck mittels binauralem Rendering.
Worum geht es in Ihrer Promotion?
Allgemein formuliert um Spatial Audio oder etwas umgangssprachlicher: 3D-Audio. Der moderne Fachbegriff lautet binaurales Rendering.
Was ist binaurales Rendering?
Beim binauralen Rendering geht es darum, Hörerinnen und Hörer in eine virtuelle akustische Szene eintauchen zu lassen. Es ist eine wesentliche Methode für die räumliche Audiowiedergabe über Kopfhörer in Anwendungen wie Virtual und Augmented Reality, also virtuelle und erweiterte Realitäten. An den Trommelfellen der Ohren wird ein akustisches Signal – oder genauer: der Schalldruckverlauf eines Schallfeldes – reproduziert und ruft dadurch dieselbe Wahrnehmung bei einer Person hervor, als wäre sie im realen Raum beziehungsweise in dem dazugehörigen realen Schallfeld. Das kann beispielsweise ein Orchester in einem Konzertsaal oder Gesprochenes in einer Kirche sein. Das reproduzierte Signal soll einem rein auditiv das Gefühl geben, wirklich vor Ort zu sein. Das Ziel ist immer, dass wir über Kopfhörer eine räumliche Situation erzeugen, die sich nicht von der Realität unterscheiden lässt.
Welche Methoden zur Erzeugung gibt es?
Das wachsende Interesse und die zunehmende Forschung an VR und AR führte zu vielen verschiedenen Methoden für das binaurale Rendering virtueller akustischer Realitäten. Es gibt einmal die Raumakustiksimulation, für die ein 3D-Modell sowie grundlegende Parameter des Raums benötigt werden. Hoch aufgelöste Simulationen sind jedoch sehr rechenintensiv. Eine weniger rechenintensive Methode, die wir auch am Institut für Nachrichtentechnik bei Prof. Dr. Christoph Pörschmann entwickeln und erforschen, ist das Parametrische Rendering. Da wird eine sogenannte binaurale Raumimpulsantwort, welche zur Erzeugung der binauralen Signale am Ohr genutzt wird, aus ihren Einzelteilen zusammengebaut. Die Elemente sind Direktschall, der zum Beispiel von vorne kommt, Reflexionen, die beispielsweise von den Seiten kommen, sowie der Nachhall, der zur Vereinfachung oft als diffus angenommen wird. Die Komponenten werden zusammengefügt und dadurch der Raum quasi nachgebaut. Ein weiteres Vorgehen, welches ebenfalls am Institut erforscht wird, ist die Rekonstruktion binauraler Signale auf Basis von sphärischen Mikrofon-Array Aufzeichnungen. Bei einem sphärischen Mikrofon-Array handelt es sich um eine Anordnung von Mikrofonen auf einer Kugel. Mikrofon-Array-Verfahren und parametrische Verfahren zur Erzeugung binauraler Signale gehen oft Hand in Hand und fließen nahtlos ineinander über.
Was war der Schwerpunkt Ihrer Arbeit?
Ein starker Fokus lag auf der effizienten Gestaltung des binauralen Renderings. Nicht alle Details, die normalerweise in der Schallabstrahlung oder in der Raumakustik enthalten sind, können Menschen hören. Deshalb spart man beim effizienten und perzeptiv motivierten binauralen Rendering Informationen wie etwa dargebotene räumliche Details, damit man einen verringerten Aufwand in der Berechnung hat. Trotzdem soll die Wahrnehmung dazu führen, dass Probandinnen und Probanden sagen: Das klingt für mich wie dieser Raum oder ich höre gar keinen Unterschied zwischen einer realen und einer virtuellen Schallquelle. Die Methoden lassen sich ein bisschen mit der mp3-Codierung vergleichen. Die Idee ist, dass man das weglässt, was man sowieso nicht hören kann oder nur das wiedergibt, was gehört werden kann. Je nach Anwendung ist es gar nicht wichtig, dass es genau so klingt wie der reale Raum, sondern nur, dass die Nutzerinnen und Nutzer es für plausibel halten.
Wofür benötigt man effizientes binaurales Rendering?
Meta und andere großen Technologie-Unternehmen arbeiten viel an VR- und AR-Anwendungen und benötigen dafür eine binaurale Reproduktion, die möglichst effizient ist. Gründe dafür können sein, dass das Rendering in Echtzeit auf einem vergleichsweisen leistungsschwachen Chip in einer AR-Brille erfolgen muss. Ich habe ein halbes Jahr bei den Reality Labs von Meta gearbeitet, um genau solche Lösungen für effizientes binaurales Rendering zu erforschen und zu entwickeln. Eine potenzielle Anwendung ist zum Beispiel, dass man mittels einer AR-Brille virtuell mit einem Freund telefoniert und diese Person sitzt dann als Avatar virtuell vor einem. Natürlich soll es auch genau so klingen, als ob er in dem realen Raum sitzt. Wenn man dann beim Sprechen herumläuft, dann soll das auch noch so klingen, als ob man von diesem neuen Standpunkt aus spricht und der Freund weiterhin sitzt. Die virtuelle Akustik soll sich dynamisch an die reale akustische Situation anpassen und das möglichst effizient und schnell.
August 2022