Fraunhofer upHear 보이스 음질 개선 기술

인공지능 비서를 위한 첨단 음성인식 기술

Fraunhofer (프라운호퍼) upHear 음성 품질 개선 기술(Voice Quality Enhancement)은 다양한 인공지능 비서 솔루션을 지원하는 마이크 처리 기술로서, 스마트 스피커나 사운드바 같은 인공지능 비서와 휴대폰의 내장마이크를 사용하여 음성인식 기반의 인간-기계 상호작용을 가능하게 하도록 설계되었습니다. 이 기술은 마이크에 감지된 잡음을 제거하여 음성을 추출하고 음성 명령 인식에 방해가 되는 에코를 상쇄시킴으로써 원거리 음성 명령을 지원하고 바지인(barge-in) 기능을 활성화시킵니다.

 

문제점

머신러닝 기술이 빠르게 발전함에 따라 음성인식 기반의 인간-기계 인터페이스(Human Machine Interfaces, HMI)가 휴대폰, 인공지능 비서, 자동차 등 여러 분야에 적용되고 있습니다. 음성인식 HMI 시스템은 일반적으로 다음과 같은 유닛으로 구성되어 있습니다.

  • 시스템을 깨우는(wake-up) 핵심어 검출(keyword-spotter) 기술
  • 음성을 텍스트로 변환하는 자동 음성 인식 모듈 (Automatic Speech Recognizer, ASR)
  • 기계와의 자연스러운 대화를 위한 자연어 이해 인터페이스 (Natural Language understanding interface, NLUI)
  • 사용자에게 의미 있는 피드백 명령을 생산하는 자연어 생성(Natural Language Generation, NLG)
  • 텍스트에서 합성된 음성을 생성하는 문자음성 자동변환 모듈 (Text-To-Speech, TTS)

음성인식 HMI에는 기기의 내장 마이크를 통해 수신된 오디오 스트림이 입력됩니다. 음성인식 HMI시스템 사용 시, 포착된 음성의 품질이 핵심어 검출과 ASR 처리 성능을 보장하지 않을 수도 있습니다.

 

솔루션

Fraunhofer upHear 음성 품질 개선 기술은 다양한 모바일 기기, 인공지능 비서 및 컨퍼런스용 기기를 위한 유연한 통합 솔루션입니다. 이 기술은 신호원 정위(source localization), 빔포밍(beam forming), 에코 및 잡음 감소 알고리즘을 사용하여 열악한 음향환경에서도 탁월한 음성 품질을 보장합니다. 또한, 멀티채널 에코 상쇄를 통해 음성인식 HMI의 바지인 기능을 지원합니다.

본래 단일 마이크를 지원하는 기술이지만, 원거리 등 열악한 환경에서도 사용자의 음성을 쉽게 인식할 수 있는 마이크 어레이(Mircrophone array) 사용을 추천합니다.

기기별 설정 및 마이크 배치 관련 컨설팅은 별도 문의 바랍니다.

제품 특징

Fraunhofer upHear 음성 품질 개선 기술은 다음과 같은 최적화된 기능들을 통해 음성 품질을 향상시킵니다.

  • 멀티채널 에코 상쇄(Multichannel Acoustic Echo Cancellation, MC-AEC) 기기 스피커에서 발생하는 에코를 감소시킵니다.
  • 음원 위치 추적 (Direction of arrival, DOA)화자의 방향을 추정합니다.
  • 빔포밍 (Beamforming) 마이크 어레이에 의한 공간적 다양성을 이용하여 지향성 음향 수집 및 원거리의 사용자 음성을 추출합니다.
  • 잡음 제거 (Noise Reduction, NR), 탈반향(dereverberation) 및 자동 이득 제어(Automatic Gain Control, AGC) 수음된 음성의 품질을 더욱 향상시킵니다.

제품 요구사항

Fraunhofer upHear 음성 품질 개선 기술은 기기 고유의 형태에 맞게 최적화됩니다. 또한, 마이크 및 스피커 설정이 유연하여 모노, 스테레오, 서라운드, 몰입형 사운드 등 재생되는 사운드 유형에 관계없이 최적의 성능을 보장하고 제품 설계에 유연성을 더해줍니다. 선형 또는 원형 마이크 배치와 같이 일반적으로 사용되는 마이크 어레이 구조가 기본적으로 지원됩니다.

멀티채널 음성 품질 개선을 위한 마이크 수와 배열은 애플리케이션 시나리오 및 제품 설계에 따라 상이합니다. 통상적으로 2~4개이지만 최상의 품질을 위해 8개까지도 사용됩니다. 아래는 마이크 설정의 예시입니다.

출시 정보

Fraunhofer upHear 음성 품질 개선 기술(VQE)은 라이센스로 제공됩니다. 소프트웨어 라이브러리는 다음과 같은 프로그램에 제공될 수 있습니다.

  • 데스크톱 플랫폼 (Windows, Mac, Linux)
  • 모바일 앱 (iOS, Android)
  • 임베디드 시스템 (예: ARM Cortex)

Fraunhofer IIS는 upHear VQE 소프트웨어 라이센스 보유 고객을 대상으로 폭넓은 기술지원 서비스를 제공하고 있습니다.

라이센스 소프트웨어에 대한 문의가 있으신 경우 아래의 형식에 따라 요청양식을 작성해 주십시오.

Request licensing information: upHear Voice Quality Enhancement

To request a price quote or an evaluation license, please fill in and submit the form.

* Required

Software platform:
Hardware platform
Title
Name