MPEG-I Immersive Audio

Überzeugender Klang für XR

Extended Reality (XR) – Virtual Reality (VR), Augmented Reality (AR) und Mixed Reality – hat im visuellen Bereich enorme Fortschritte gemacht. Hochauflösende Displays, präzises Tracking und Echtzeit-Rendering ermöglichen überzeugende virtuelle Welten. Doch sobald sich der Ton nicht wie erwartet verhält, geht das virtuelle Erlebnis verloren: wenn sich ein Chor in einer Kathedrale nicht entfaltet, eine Trommel hinter einer Ecke nicht hörbar ist oder die eigene Stimme vom Raum losgelöst wirkt. 

 

Standardisiertes Rendering für natürliches immersives Audio

Für eine überzeugende Immersion muss sich der Klang stimmig an die Position, Ausrichtung und Bewegung der Hörenden anpassen. Ebenso entscheidend ist, dass der Klang, die akustischen Eigenschaften, Materialien und die Geometrie der Umgebung berücksichtigt werden.

MPEG-I Immersive Audio ist ein standardisierter Renderer von ISO/MPEG, der speziell für hochwertige Audioanwendungen in VR und AR entwickelt wurde. Er ermöglicht Klangwelten, die natürlich und überzeugend wirken, und ergänzt visuelle Eindrücke durch realistische räumliche Audioabbildungen. Ob beim Rundgang durch einen virtuellen Konzertsaal oder beim Verfolgen eines Live-Sportereignisses in VR – MPEG-I sorgt für eine konsistente, immersive und zur jeweiligen Umgebung passende Akustik.

Von 3DoF zu vollständiger räumlicher Bewegungsfreiheit

MPEG-I VR Scene - Six Degrees of Freedom
© Fraunhofer IIS

Frühere Lösungen beschränkten sich auf ein akustisches Erlebnis von einem festen Beobachtungspunkt aus und erlaubten lediglich Kopfbewegungen mit drei Freiheitsgraden (3 Degrees of Freedom - 3DoF). MPEG-I erweitert dies auf die vollständigen sechs Freiheitsgrade (6DoF). Damit reagieren akustische Eindrücke in VR nahtlos auf jede Positionsveränderung: Sobald man sich durch Räume bewegt, den Abstand zu Klangquellen ändert oder hinter Objekte tritt, passt sich der Klang wie in der Realität an. In AR fügen sich virtuelle Klangquellen natürlich in reale Umgebungen ein – etwa, wenn virtuelle Musiker im eigenen Wohnzimmer platziert werden und ein individuell gestaltetes Konzerterlebnis entsteht.

Die Erzeugung eines realistischen 6DoF-Audioerlebnisses erfordert die Simulation physikalischer akustischer Prozesse:

  • Beugung von Schall an Hindernissen 
  • Ausbreitung in offenen und hallenden Räumen 
  • Doppler-Effekte durch bewegte Schallquellen 
  • Realistische Abstrahlcharakteristiken und räumliche Ausdehnung 

Von Meereswellen, die sich entlang eines Strandes ausbreiten, bis hin zum Verkehrslärm einer pulsierenden Stadt: Mit MPEG-I Immersive Audio werden diese komplexen akustischen Phänomene innerhalb eines standardisierten, echtzeitfähigen Rendering-Frameworks unterstützt. So lassen sie sich effizient und konsistent auf unterschiedlichen Endgeräten wiedergeben.

Virtual basketball hall
© Fraunhofer IIS

Die folgende Demonstration zeigt ein einfaches Beispiel der MPEG-I-Immersive-Audio-Technologie. Für ein optimales Hörerlebnis empfiehlt sich die Nutzung von Kopfhörern – zum Beispiel, um das räumlich umhüllende Plätschern des Brunnens in seiner Ausdehnung wahrzunehmen.

Von Metadaten zu Klang

Mit dem MPEG-I-Immersive-Audio-Standard lassen sich immersive Klangwelten für VR und AR konsistent über verschiedene Endgeräte hinweg erzeugen, übertragen und erleben. Dies ermöglicht die Bereitstellung immersiver VR- und AR-Inhalte als Service der nächsten Generation über bestehende Übertragungswege und macht hochwertige räumliche Audioerlebnisse einem breiten Publikum zugänglich.

MPEG-I gliedert die Erstellung immersiver Audioinhalte in drei Komponenten:

  • Authoring & Encoding: Hier definieren Content-Ersteller Schallquellen, Umgebungen, Geometrie und Materialien. 
  • Transport & Storage: Für Streaming, Rundfunk oder dateibasierte Übertragung wird das effiziente MHAS-Format (MPEG-H Audio Streaming) genutzt. 
  • Decoding & Rendering: Listener-Tracking und detaillierte akustische Metadaten werden zusammengeführt, um in Echtzeit überzeugende, physikalisch basierte Klangszenen zu rekonstruieren. 

Extended-Reality-Kommunikation: MPEG-I und IVAS

IVAS wurde in 3GPP als Codec für immersive räumliche Sprachkommunikation standardisiert. Dies umfasst die Echtzeitkommunikation mit Unterstützung räumlicher Metadaten wie Audioobjekt-Positionen und -Orientierungen sowie Head-Tracking der Hörenden. MPEG-I Immersive Audio ergänzt dies durch ein XR-seitiges Framework, das Klang so verarbeitet, dass er natürlich auf die Bewegungen der Hörenden und von Audioobjekten reagiert und dabei Entfernungen sowie akustische Eigenschaften der Umgebung berücksichtigt.

So entstehen überzeugende 6DoF-Audioerlebnisse in begehbaren virtuellen Umgebungen. Gemeinsam verbinden beide Technologien immersive Sprachkommunikation mit immersivem Media-Rendering und nutzen sich ergänzende Standards für Live-Kommunikation und interaktive XR-Anwendungen. Diese Kombination trägt dazu bei, ein konsistentes Ökosystem für immersives Audio in zukünftigen Kommunikationsdiensten, im Entertainment-Bereich und in XR-Anwendungen zu etablieren.

MPEG-I and IVAS VR Scene
© Fraunhofer IIS

Integriertes immersives Audio mit MPEG-I und MPEG-H

MPEG-I and MPEG-H VR Scene
© Fraunhofer IIS

Durch die Standardisierung des 6DoF-Metadaten-Bitstream-Formats sowie von Transport, Decoding und Rendering stellt MPEG-I sicher, dass immersive Inhalte interoperabel, zukunftssicher und plattformübergreifend einfach nutzbar bleiben.

MPEG-I Immersive Audio lässt sich nahtlos mit MPEG-H Audio kombinieren, um eine effiziente Kompression von Inhalten zu ermöglichen, die die Wiedergabe von Kanälen, Audioobjekten und Higher Order Ambisonics (HOA) unterstützt. Darüber hinaus kann lokales Audio, beispielsweise die eigene Stimme der Nutzenden, in den Renderer eingespeist werden, um latenzarme Echtzeitgespräche in virtuellen oder erweiterten Umgebungen zu ermöglichen.

Dies erlaubt Anbietern, Nutzerinnen und Nutzern besonders immersive und ansprechende Erlebnisse bereitzustellen – sei es im Entertainment-Bereich, bei Dokumentationen, in der Bildung oder im Sport.

 

Weitere Informationen

Summary of MPEG-I Immersive Audio Verification Test Report

MPEG-I Immersive Audio - The Technology of the New Standard for Virtual / Augmented Reality Audio

MPEG-I Immersive Audio - The Upcoming New Audio Standard for Virtual / Augmented Reality

Quality Testing for AR and VR in MPEG-I Immersive Audio

MPEG-I Immersive Audio — Reference Model for the Virtual/Augmented Reality Audio Standard