인공지능 비서를 위한 첨단 음성인식 기술
Fraunhofer (프라운호퍼) upHear 음성 품질 개선 기술(Voice Quality Enhancement)은 다양한 인공지능 비서 솔루션을 지원하는 마이크 처리 기술로서, 스마트 스피커나 사운드바 같은 인공지능 비서와 휴대폰의 내장마이크를 사용하여 음성인식 기반의 인간-기계 상호작용을 가능하게 하도록 설계되었습니다. 이 기술은 마이크에 감지된 잡음을 제거하여 음성을 추출하고 음성 명령 인식에 방해가 되는 에코를 상쇄시킴으로써 원거리 음성 명령을 지원하고 바지인(barge-in) 기능을 활성화시킵니다.
문제점
머신러닝 기술이 빠르게 발전함에 따라 음성인식 기반의 인간-기계 인터페이스(Human Machine Interfaces, HMI)가 휴대폰, 인공지능 비서, 자동차 등 여러 분야에 적용되고 있습니다. 음성인식 HMI 시스템은 일반적으로 다음과 같은 유닛으로 구성되어 있습니다.
- 시스템을 깨우는(wake-up) 핵심어 검출(keyword-spotter) 기술
- 음성을 텍스트로 변환하는 자동 음성 인식 모듈 (Automatic Speech Recognizer, ASR)
- 기계와의 자연스러운 대화를 위한 자연어 이해 인터페이스 (Natural Language understanding interface, NLUI)
- 사용자에게 의미 있는 피드백 명령을 생산하는 자연어 생성(Natural Language Generation, NLG)
- 텍스트에서 합성된 음성을 생성하는 문자음성 자동변환 모듈 (Text-To-Speech, TTS)
음성인식 HMI에는 기기의 내장 마이크를 통해 수신된 오디오 스트림이 입력됩니다. 음성인식 HMI시스템 사용 시, 포착된 음성의 품질이 핵심어 검출과 ASR 처리 성능을 보장하지 않을 수도 있습니다.
솔루션
Fraunhofer upHear 음성 품질 개선 기술은 다양한 모바일 기기, 인공지능 비서 및 컨퍼런스용 기기를 위한 유연한 통합 솔루션입니다. 이 기술은 신호원 정위(source localization), 빔포밍(beam forming), 에코 및 잡음 감소 알고리즘을 사용하여 열악한 음향환경에서도 탁월한 음성 품질을 보장합니다. 또한, 멀티채널 에코 상쇄를 통해 음성인식 HMI의 바지인 기능을 지원합니다.
본래 단일 마이크를 지원하는 기술이지만, 원거리 등 열악한 환경에서도 사용자의 음성을 쉽게 인식할 수 있는 마이크 어레이(Mircrophone array) 사용을 추천합니다.
기기별 설정 및 마이크 배치 관련 컨설팅은 별도 문의 바랍니다.