概述
增强智能终端的语音识别
Fraunhofer upHear语音质量增强是适用于智能终端的麦克风处理技术。它能够帮助手机和智能终端(如智能音箱或条形音箱)更好地实现由语音控制的人机交互功能。该技术让智能终端能够理解远场语音指令,并通过消除麦克风捕获的噪声实现话音插入,以及通过消除回声来帮助设备准确理解用户指令。
面临的挑战
随着近年来机器学习领域的快速发展,语音控制人机界面(HMI)在手机、智能终端和汽车等领域的应用越来越广泛。语音控制HMI系统通常包括以下处理单元:
- 关键字识别系统实现唤醒功能
- 自动语音识别(ASR)模块将语音转换为文本
- 自然语言理解界面(NLUI)实现人机对话
- 自然语言生成模块(NLG)为用户带来真实的反馈命令
- TTS功能模块可将文本转换为合成语音
所有语音控制的人机交互界面输入都是通过内置的麦克风来拾取音频,但低质量的拾取音频可能无法让关键字和自动语音识别功能达到预期效果。
我们的解决方案
Fraunhofer upHear语音质量增强技术是广泛适用于手机、智能终端以及会议系统的高度集成且灵活的解决方案。该技术通过结合先进的多通道声源定位和具有回声消除和降噪算法的波束赋形技术实现,即使在声学条件不佳的环境里仍能带来卓越的语音质量。先进的回声消除算法能够确保在语音人机交互过程中实现话音插入功能。
尽管该技术支持单个麦克风用例,我们仍建议用户采用麦克风阵列从而提高在恶劣场景(尤其是远场语音交互)下的用户体验。