Dialogue Enhancement

概要

テレビ番組音声のパーソナライズを実現

会話と周囲音の適切なバランス調整は、サウンド・エンジニアにとって大きな課題であり、視聴者の苦情原因となる事例が増えています1。フラウンホーファーIISは、視聴者が各自の好みやリスニング環境、聴力に合わせて音声のバランスを調整することを可能にする後方互換技術を開発しました。

Dialogue Enhancementは、DVBにおいて、オーディオ・ビデオ・コーディング・ツールボックスの「Advanced Clean Audio Services」として標準化されています。

 

Dialogue Enhancementの特長

 

  • ユーザーが放送番組内の音響要素の音量を個別に調整することが可能
    • 例:スポーツ生中継における実況音声や周囲音の音量を調整する
    • 効果:声の明瞭度やライブイベントへの没入感の向上
  • コスト効率の高い聴覚障害者向け音声サービスが可能
  • 標準のミックスを再生する既存受信機インフラと後方互換

1 2011年12月にロンドンで開催されたLoudness SummitにおけるPhil Greene氏(BBCビジネス/技術アナリスト)のプレゼンテーション。以下のリンクから視聴可能.

動作原理

Fraunhofer IIS Dialogue Enhancement Workflow
© Photo Fraunhofer IIS

ソース信号(会話や音楽など)を単一の信号にミックスする前に解析し、信号間の関係のパラメーター記述を生成し、ダウンミックス信号に加えて送信します。パラメトリック・サイド情報により、受信機側で各ソースの音量を個別に調整することが可能になり、会話や実況音声の明瞭度が向上します。

詳しい動作原理については、Dialogue Enhancement技術資料をご覧ください。

実現可能性の証明に加え、ユーザーの反応を試すために、BBCとフラウンホーファーIISは2011年ウィンブルドン選手権において実験を行いました。この実験では、英国のBBC Radio 5 Liveインターネット・ストリーム視聴者に対し、実況音声とコートの周囲音の相対音量を調整できる専用プレーヤーをダウンロード提供し、このプレーヤーをユーザー調査にリンクしました。この調査によれば、参加した視聴者の大多数がテレビやラジオの音のバランスを変更できることは大いに役立つと評価しました。さらに、コートの周囲音を大きくする方を選んだ人と実況音声を大きくする方を選んだ人は半々に分かれました。

アプリケーション

Dialogue Enhancementは、テレビ放送番組の視聴体験のパーソナライズを可能にして会話の明瞭度を高めることを目的としています。この技術は、放送事業者が提供する音声ミックス自体はバランスがとれているかもしれないが、必ずしも受信側の満足のいく体験を保証するとは限らない、という認識に対する回答です。

放送番組の会話に対する各視聴者の了解度は、さまざまな側面によって決まります。

 

リスニング環境

リスニング環境と再生機器は、音声ミックスに対する視聴者の了解度に大きく影響します。例えば、ヘッドホンで視聴する場合、背景音が多いと重要な会話がマスクされる可能性があるため、会話と背景音のバランスを変えた方が有利になります。

 

外国語

一般に、母語以外の言語で番組を視聴する場合、母語の場合より集中する必要があります。背景音に対する会話の相対音量を上げると聞き取りが楽になり、全体的な了解度が向上します。実験によれば、SN比が約3dB上がると会話了解度が視聴者の母語と同等程度まで向上することがわかっています1。しかし、会話の内容が複雑すぎるなど、場合によっては3dBでも十分とは言えません。Warzybokらによれば、そうした場合、視聴者の語学力に応じて5~10dB上げる必要があります2

 

聴力

SN比の向上は、聴覚障害者にとって、通常の聴力を持つ人と同じように放送番組を理解し、楽しめるという恩恵をもたらします。SN比が1dB上がるだけでも会話明瞭度は大きく向上します。
SN比向上がもたらす効果に関する詳細は、Brand and Kollmeier3をご覧ください。聴力低下の進展と進行については、Heger and Holube4およびKochkin5をご覧ください。

 

Dialogue Enhancementにより、テレビ視聴者は受信した音声ミックスを各自の聴力や好みに合わせて個別に調整することが可能になり、テレビ番組の了解度が向上します。

1Florentine, M. 1985., Speech perception in noise by fluent, non‐native listeners. J. Acoust. Soc. Am., Volume 77, Issue S1, pp. S106-S106.

2Warzybok, A. et al., 2010. Influence of the linguistic complexity in relation to speech material on non-native speech perception in noise. DAGA 2010, Berlin.

3Brand, T. and Kollmeier, B., 2002. Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests. The Journal of the Acoustical Society of America, 111(6), 2801. doi:10.1121/1.1479152

4Heger, D., and Holube, I., 2010. Wie viele Menschen sind schwerhörig? Zeitschrift für Audiologie, 49(2), pp. 61–70.

5Kochkin, S., 2005. MarkeTrak VII: Hearing loss population tops 31 million people. Hearing Review, 12(7). http://www.betterhearing.org/pdfs/Marketrak7_Kochkin_July05.pdf