MPEG-I 没入型オーディオ

説得力のあるXRサウンドを実現

エクステンデッド・リアリティ(XR)―仮想現実(VR)、拡張現実(AR)、複合現実(MR)―は、視覚面において飛躍的な進歩を遂げています。高解像度のディスプレイ、正確なトラッキング、そしてリアルタイムレンダリングが、説得力のある(仮想)世界を創り出します。しかし、音響が期待通りに響かないと、その没入感は一瞬にして崩れてしまいます。大聖堂で合唱の音が広がらない、角を曲がった先からドラムの音が聞こえない、あるいは自分の声がその空間と切り離されているように感じられるといった場合です。

 

自然で没入型オーディオのために規格化されたレンダリング

没入感を高めるには、リスナーの位置、向き、動きに自然に反応する音が必要です。また、その環境の形状、素材、音響特性も反映されなければなりません。

MPEG-I Immersive Audioは、高品質なVRおよびARオーディオ向けに設計された、ISO/MPEG規格に準拠したレンダラーです。自然な臨場感あふれるオーディオ体験を提供し、リアルな空間音響で映像を補完します。バーチャルなコンサートホールを歩き回る場合でも、VRでスポーツのライブ中継を観戦する場合でも、MPEG-Iは一貫性があり、没入感に満ち、その環境に忠実な音響を実現します。

 

3DoFから完全な空間的自由度へ

MPEG-I VR Scene - Six Degrees of Freedom
© Photo Fraunhofer IIS

従来のソリューションは、単一の観測点からの音響体験に限定されており、頭部の動きは3自由度(3DoF)のみに対応していました。MPEG-Iは、完全な6自由度(6DoF)をサポートすることで、この点を改善しています。VRユーザーは、体の位置の変化にシームレスに反応する音響を体験します:部屋を移動したり、音源との距離を変えたり、物体の後ろを歩いたりすると、すべてリアルな音響の変化が生じます。ARでは、仮想の音源が現実の空間に自然に溶け込みます。例えば、リビングルームのあちこちに仮想のミュージシャンを配置して、自分だけのプライベートコンサートを楽しむことができます。

妥当な6DoFオーディオを作成するには、実際の音響物理学をシミュレートする必要があります:

•    障害物による音の屈折

•    開放空間や残響空間における音の伝播

•    移動音源によるドップラー効果

•    リアルな放射パターンと空間的広がり

浜辺に打ち寄せる波の音から、密集した街並みに響き渡る交通騒音まで:MPEG-I没入型オーディオにより、こうした複雑な音響特性は、標準化されたリアルタイム対応のレンダリングフレームワーク内でサポートされるため、さまざまなエンドユーザー端末において効率的かつ一貫して再現することが可能になります。

Virtual basketball hall
© Photo Fraunhofer IIS

以下のデモは、MPEG-I没入型オーディオ技術の簡単な例です。最高の体験を味わうため、ヘッドフォンをご使用ください。例えば、噴水の水しぶきの音が空間全体に広がるような臨場感をお楽しみください。

メタデータから音声へ

MPEG-I Immersive Audio規格により、真に没入感のあるVRおよびARサウンドを、デバイス間を問わず一貫して作成、配信、体験することが可能になります。これにより、没入型VRおよびARコンテンツを次世代サービスとして既存の配信チャネルを通じて提供できるようになり、幅広いユーザーに高品質な空間オーディオ体験を届けることが実現します。

MPEG-Iでは、没入型オーディオの制作を以下の3つの要素に構造化しています:

•    オーサリングとエンコーディング:コンテンツ制作者が音源、環境、形状、材質を定義する段階。

•    伝送と保存:ストリーミング、放送、またはファイルベースの配信に、効率的なMHAS(MPEG-H Audio Streaming)フォーマットを使用する段階。

•    デコードとレンダリング:リスナーの追跡情報と詳細な音響メタデータを組み合わせ、物理法則に基づいた説得力のある音響シーンをリアルタイムで再現する段階。

エクステンデッド・リアリティ通信:MPEG-IおよびIVAS

IVASは、3GPPにおいて没入型空間通話用のコーデックとして標準化されており、音声オブジェクトの位置や向きといった空間メタデータのサポートや、リスナーのヘッドトラッキングを含むリアルタイム通信に対応しています。MPEG-I Immersive Audioは、リスナーとオーディオオブジェクトの両方の動きに自然に反応し、距離や環境音響の手がかりの影響も考慮した、XR向けのサウンドフレームワークを提供することで、これを補完します。これにより、歩き回れる仮想環境において、臨場感あふれる6DoFオーディオ体験を実現することが可能になります。これら2つの技術は、没入型の音声通信と没入型メディアのレンダリングを結びつけ、相互に補完し合う規格を活用することで、ライブ通話とインタラクティブなXR体験の両方をサポートします。この組み合わせにより、将来の通信サービス、エンターテインメント、およびXRアプリケーションに向けた、一貫性のある没入型オーディオのエコシステムを構築することが可能になります。

MPEG-I and IVAS VR Scene
© Photo Fraunhofer IIS

MPEG-IとMPEG-Hによる統合没入型オーディオ

MPEG-I and MPEG-H VR Scene
© Photo Fraunhofer IIS

MPEG-Iは、6DoFメタデータビットストリームのフォーマット、伝送、デコード、およびレンダリングを標準化することで、没入型コンテンツが相互運用性を維持し、将来にわたって対応可能であり、あらゆるプラットフォームで容易に利用できるようにします。MPEG-I Immersive Audioは、MPEG-H Audioとシームレスに組み合わせることができ、チャンネル、オブジェクト、および高次アンビソニックス(HOA)のレンダリングに対応した効率的なコンテンツ圧縮を実現します。さらに、ユーザー自身の声などのローカルオーディオをレンダラーに入力することで、仮想環境や拡張現実環境における低遅延のリアルタイム会話を実現できます。これにより、プロバイダーはエンターテインメント、ドキュメンタリー、教育、スポーツなど、あらゆる分野において、ユーザーに真に刺激的で没入感のある体験を提供することが可能になります。

詳細はこちらでご確認ください

Summary of MPEG-I Immersive Audio Verification Test Report

MPEG-I Immersive Audio - The Technology of the New Standard for Virtual / Augmented Reality Audio

MPEG-I Immersive Audio - The Upcoming New Audio Standard for Virtual / Augmented Reality

Quality Testing for AR and VR in MPEG-I Immersive Audio

MPEG-I Immersive Audio — Reference Model for the Virtual/Augmented Reality Audio Standard