MPEG-I 몰입형 오디오

현실감 있는 XR 사운드 구현

가상현실(VR), 증강현실(AR), 혼합현실(MR)을 아우르는 확장현실(XR)은 시각적 측면에서 놀라운 발전을 이루어 왔습니다. 특히 고해상도 디스플레이, 정밀한 트래킹, 실시간 렌더링 기술은 실감나는 (가상) 세계를 구현해줍니다. 하지만 음향이 제대로 작동하지 않으면 몰입감은 즉시 사라집니다. 예를 들어 대성당에서 합창 소리가 울려 퍼지지 않거나, 모퉁이 반대편에 있는 드럼 소리가 들리지 않거나, 목소리가 공간과 어우러지지 않고 이질감이 느껴지는 경우가 그렇습니다.

 

자연스러운 몰입형 오디오를 위한 표준화된 렌더링

완성도 높은 몰입을 위해서는 청취자의 위치, 방향, 움직임에 따라 사운드가 자연스럽게 반응해야 합니다. 또한 공간의 구조, 재질, 음향 특성까지 충실히 반영해야 합니다. 

MPEG‑I 몰입형 오디오는 고품질 VR 및 AR 오디오를 위해 설계된 ISO/MPEG 표준 렌더링 기술입니다. 이 기술은 시각적 요소를 보완하는 실감나는 입체 음향을 통해, 자연스럽고 현실감 있는 오디오 경험을 제공합니다. 가상 공연장을 거닐거나 VR로 스포츠 경기를 관람하는 상황에서도, MPEG-I는 주변 환경과 자연스럽게 어우러지는 몰입형 음향을 구현합니다.

 

3DoF에서 완전한 공간 자유도까지

MPEG-I VR Scene - Six Degrees of Freedom
© Photo Fraunhofer IIS

기존의 기술은 특정 지점에서 머리의 움직임에 따라 음향을 감상할 수 있는 3자유도(3DoF)를 지원했습니다. MPEG-I는이를 넘어 6자유도(6DoF)를 지원합니다. 덕분에 음향은 VR 사용자의 위치 변화에 따라 자연스럽게 반응하게 됩니다. 공간을 이동하거나, 음원과의 거리가 달라지거나, 물체 뒤로 이동하는 등 다양한 상황에서 현실적인 음향 변화가 이루어집니다. AR 환경에서는 가상의 음원이 실제 공간과 자연스럽게 어우러집니다. 예를 들어 거실 곳곳에 가상의 연주자를 배치해 나만의 맞춤형 콘서트를 즐길 수도 있습니다.

실감나는 6자유도(6DoF) 오디오를 구현하기 위해서는 다음과 같은 실제 음향 물리 현상을 정밀하게 구현해내야 합니다. 

  • 장애물을 따라 휘어지는 음파
  • 개방된 공간과 잔향 환경 내 음파 전파
  • 이동하는 음원의 도플러 효과
  • 실제와 같은 방사 특성과 공간적 확산

MPEG-I 몰입형 오디오는 표준화된 실시간 렌더링 프레임워크를 바탕으로, 해변을 따라 펼쳐지는 파도 소리, 밀집한 도심을 가로지르는 교통 소음 등 복잡한 음향 거동을 지원합니다. 덕분에 재생기기 유형에 관계 없이 일관되고 효율적으로 사운드를 재현할 수 있습니다.

Virtual basketball hall
© Photo Fraunhofer IIS

아래 데모 영상에서는 MPEG-I 몰입형 오디오 기술을 체험할 수 있습니다. 분수의 물소리가 공간을 에워싸며 퍼지는 효과를 직접 느껴보시기 바랍니다. 최상의 경험을 위해 가급적 헤드폰 사용을 권장 드립니다.

메타데이터에서 사운드까지

MPEG-I 몰입형 오디오 표준은 재생기기에 관계없이 진정한 몰입형 VR 및 AR  사운드의 제작, 전송 및 재생을 지원합니다. 이를 통해 기존 전송 인프라를 활용하여 차세대 서비스인 몰입형 VR·AR 콘텐츠를 제공할 수있으며, 더 많은 사용자에게 고품질 입체 오디오 경험을 선사할 수 있습니다.

MPEG-I의 몰입형 오디오 구현 과정은 다음의 세 가지 단계로 나뉩니다.

  • 저작 및 인코딩: 콘텐츠 제작자가 음원, 환경, 공간 구조, 재질 등의 요소 정의
  • 전송 및 저장: 효율적인 MHAS(MPEG-H 오디오 스트리밍) 포맷을 사용하여 스트리밍, 방송 또는 파일 기반 전송
  • 디코딩 및 렌더링: 사용자 움직임 추적 정보와 정교한 음향 메타데이터를 결합해 물리 기반의 사실적인 음향 장면을 실시간으로 재현

확장현실 통신: MPEG-I와 IVAS

IVAS 는 3GPP에서 표준화된 몰입형 공간 음성 통신용 코덱으로, 오디오 객체의 위치와 방향, 사용자 헤드트래킹 등 공간 메타데이터를 지원하는 실시간 통신을 가능하게 합니다. MPEG-I 몰입형 오디오는 XR 환경에서 사운드를 담당하는 프레임워크로서, 사용자와 오디오 객체의 움직임에 자연스럽게 반응하고, 거리와 공간의 음향 특성까지 반영하는 오디오를 구현합니다. 이를 통해 사용자가 이동할 수 있는 가상 공간에서 완성도 높은 6자유도(6DoF) 오디오 경험을 구현할 수 있습니다. 이 두 기술은 상호 보완적 표준으로, 몰입형 음성 통신과 몰입형 미디어 렌더링을 결합하며 실시간 통화와 인터랙티브 XR 경험을 함께 지원합니다. 두 기술의 조합은 차세대 통신 서비스, 엔터테인먼트, XR 애플리케이션 등 몰입형 오디오 생태계 구축에 기여하고 있습니다.

MPEG-I and IVAS VR Scene
© Photo Fraunhofer IIS

MPEG-I 및 MPEG-H 기반 통합 몰입형 오디오

MPEG-I and MPEG-H VR Scene
© Photo Fraunhofer IIS

MPEG-I는 6자유도(6DoF) 메타데이터 비트스트림의 형식과 전송, 디코딩 및 렌더링을 표준화함으로써, 몰입형 콘텐츠가 다양한 플랫폼에서 상호운용 가능하고 미래 확장성을 갖추며 손쉽게 활용될 수 있도록 합니다. MPEG-I 몰입형 오디오는MPEG-H 오디오와 유기적으로 결합되어, 채널 기반, 객체 기반, 고차 앰비소닉스(HOA) 등 다양한 오디오 구성의 효율적인 압축 및 렌더링을 지원합니다. 아울러 사용자의 음성 등 로컬 오디오 입력을 렌더러에 직접 반영할 수 있어, 가상 또는 증강 환경에서 저지연 실시간 통신을 구현할 수 있습니다. 콘텐츠 제공자는 이러한 기능을 통해 엔터테인먼트, 다큐멘터리, 교육, 스포츠 등 다양한 분야에서 몰입감 있고 매력적인 경험을 제공할 수 있습니다.

더 자세한 정보는 여기

Summary of MPEG-I Immersive Audio Verification Test Report

MPEG-I Immersive Audio - The Technology of the New Standard for Virtual / Augmented Reality Audio

MPEG-I Immersive Audio - The Upcoming New Audio Standard for Virtual / Augmented Reality

Quality Testing for AR and VR in MPEG-I Immersive Audio

MPEG-I Immersive Audio — Reference Model for the Virtual/Augmented Reality Audio Standard