대화 증폭 기술 - Dialogue Enhancement

개요

TV 프로그램을 위한 맞춤형 사운드

 

대화음와 배경음 간의 균형을 맞추는 것은 사운드 엔지니어의 주요 과제로서 이러한 균형이 깨질 경우, 시청자 불만의 주요 원인이 되기도 합니다. Fraunhofer IIS는 사용자가 개인의 취향, 청취 환경, 청각 능력에 맞게 오디오 밸런스를 설정할 수 있는 하위호환 기술을 개발하였습니다.

대화 증폭 기술은 DVB에서 오디오∙비디오 코딩 툴박스용 "Advanced Clean Audio Services"로 표준화되어 있습니다.

 

대화 증폭 기술의 특징

 

  • 방송 프로그램 오디오 구성요소의 음량을 사용자가 직접 조절할 수 있습니다.
    • 예: 스포츠 생중계 시청 시 해설 또는 배경 음량 조절
    • 효과: 음성 이해도 개선, 현장 몰입감 증대
  • 비용 효율적인 방식으로 청각 장애인용 오디오 서비스를 제공할 수 있습니다.
  • 디폴트 믹스를 재생하는 기존 수신기 인프라와 하위호환이 가능합니다.

기술 원리

Dialogue Enhancement working principle
© Photo Fraunhofer IIS

음성, 음악 등 음원 신호들은 단일 신호로 믹싱되기 전 분석 과정을 거칩니다. 이 때, 신호 간 관계가 매개변수로 표현되어 다운믹스 신호와 함께 전송됩니다. 이러한 매개변수 정보를 통해 수신기에서 각 음원의 음량을 개별적으로 조절하여, 대화나 스포츠 해설의 이해도를 향상시킬 수 있습니다.

기술구현 원리에 대한 보다 자세한 설명은 기술보고서 (영문)를 참조하세요.

BBC와 Fraunhofer IIS는 기술 검증 및 사용자 반응 파악을 위해 2011년 윔블던 테니스 대회 기간 동안 시험 방송을 실시하였습니다. BBC Radio 5 Live 스트리밍 청취자를 대상으로 전용 플레이어를 다운로드 하여 해설 음량과 경기장 현장음의 음량을 직접 조절할 수 있게 했습니다. 사용자 설문 결과에 따르면, 대부분의 청취자들이 TV나 라디오의 사운드 밸런드 조절 기능을 유용하다고 여겼습니다. 또한, 절반은 현장음을 살린 믹스를, 다른 절반은 해설음을 살린 믹스를 선호했습니다.

응용분야

대화 증폭 기술은 TV 프로그램의 음성 이해도를 향상시키고 맞춤형 청취 경험을 제공하기 위해 고안되었습니다. 방송사에서 완벽한 밸런스의 오디오 믹스를 제공한다 하더라도, 수신단에서 항상 만족할만한 품질의 얻는 것은 아니라는 점에서 이 기술이 만들어졌습니다.  청취자의 프로그램 대화음 이해 정도는 여러 요소에 의해 좌우됩니다.

 

청취 환경

청취 환경 및 재생 기기는 청취자가 오디오 믹스를 인지하는데 큰 영향을 미칩니다. 예를 들어, 헤드폰으로 방송을 청취할 경우, 시끄러운 배경음 때문에 대화가 들리지 않을 수 있으며 대화음과 배경음의 밸런스 조절이 필요합니다.

 

외국어

일반적으로 외국어 프로그램 청취 시에는 더 많은 집중이 요구됩니다. 이 때, 대화 음량을 배경 음량보다 높이면 보다 수월한 청취가 가능하고 전반적인 이해도 또한 개선됩니다. 실험 결과 신호 대 잡음비(SNR)가 3dB 만큼 증가할 경우, 모국어 프로그램 청취 시와 동일한 수준으로 음성 이해도가 향상되었습니다. 음성 복잡도가 매우 높을 경우에는 3dB 보다 더 많이 증가시켜야 합니다. Warzybok 외의 연구에 따르면, 이 경우 증가폭은 청취자의 언어 능력에 따라 5-10 dB 사이입니다.

 

청각 능력

신호 대 잡음비(SNR)를 증가시킬 경우, 청각 장애인도 비장애인 수준으로 방송 프로그램을 이해할 수 있게 됩니다. SNR이 1dB만 증가해도 음성 이해도는 크게 향상됩니다. SNR 증가에 대한 보다 자세한 정보는 Brand와 Kollmeier의 연구를, 난청의 정도 및 발병에 대한 정보는 Heger와 Holube, Kochkin의 연구를 참조하세요.

대화 증폭 기술은 TV 시청자들이 방송사에서 전송하는 오디오 믹스를 개인의 취향에 맞게 조절할 수 있도록 하여 TV 프로그램의 이해도를 높여줍니다.

1Florentine, M. 1985., Speech perception in noise by fluent, non‐native listeners. J. Acoust. Soc. Am., Volume 77, Issue S1, pp. S106-S106.

2Warzybok, A. et al., 2010. Influence of the linguistic complexity in relation to speech material on non-native speech perception in noise. DAGA 2010, Berlin.

3Brand, T. and Kollmeier, B., 2002. Efficient adaptive procedures for threshold and concurrent slope estimates for psychophysics and speech intelligibility tests. The Journal of the Acoustical Society of America, 111(6), 2801. doi:10.1121/1.1479152

4Heger, D., and Holube, I., 2010. Wie viele Menschen sind schwerhörig? Zeitschrift für Audiologie, 49(2), pp. 61–70.

5Kochkin, S., 2005. MarkeTrak VII: Hearing loss population tops 31 million people. Hearing Review, 12(7). http://www.betterhearing.org/pdfs/Marketrak7_Kochkin_July05.pdf