Fraunhofer upHear语音质量增强技术

概述

增强智能终端的语音识别

Fraunhofer upHear语音质量增强是适用于智能终端的麦克风处理技术。它能够帮助手机和智能终端(如智能音箱或条形音箱)更好地实现由语音控制的人机交互功能。该技术让智能终端能够理解远场语音指令,并通过消除麦克风捕获的噪声实现话音插入,以及通过消除回声来帮助设备准确理解用户指令。

 

面临的挑战

随着近年来机器学习领域的快速发展,语音控制人机界面(HMI)在手机、智能终端和汽车等领域的应用越来越广泛。语音控制HMI系统通常包括以下处理单元:

  • 关键字识别系统实现唤醒功能
  • 自动语音识别(ASR)模块将语音转换为文本
  • 自然语言理解界面(NLUI)实现人机对话
  • 自然语言生成模块(NLG)为用户带来真实的反馈命令
  • TTS功能模块可将文本转换为合成语音

所有语音控制的人机交互界面输入都是通过内置的麦克风来拾取音频,但低质量的拾取音频可能无法让关键字和自动语音识别功能达到预期效果。

 

我们的解决方案

Fraunhofer upHear语音质量增强技术是广泛适用于手机、智能终端以及会议系统的高度集成且灵活的解决方案。该技术通过结合先进的多通道声源定位和具有回声消除和降噪算法的波束赋形技术实现,即使在声学条件不佳的环境里仍能带来卓越的语音质量。先进的回声消除算法能够确保在语音人机交互过程中实现话音插入功能。

尽管该技术支持单个麦克风用例,我们仍建议用户采用麦克风阵列从而提高在恶劣场景(尤其是远场语音交互)下的用户体验。

产品特点

Fraunhofer upHear语音质量增强技术通过优化集成以下功能来提高语音质量:

  • 多声道回声消除(MC-AEC)可降低来自设备自身扬声器的回声
  • 声源定位(DOA)可预估用户的发声位置
  • 波束赋形通过麦克风阵列实现声音的定向采集,使得即使在远场条件下也能够准确提取用户的声音
  • 降噪(NR)、去混响和自动增益控制功能可进一步提升声音的品质

产品需求

Fraunhofer upHear语音质量增强技术能够适应特殊的设备外型设计,它能够灵活配置麦克风和扬声器以确保无论是还放单声道、立体声、环绕声还是沉浸式的声音都能表现最佳状态。这在确保产品最佳性能的同时还极大地提升了产品设计的灵活性。麦克风通常采用直线形或圆形的摆放方式。

多声道语音增强所需的麦克风数量及其摆放取决于应用场景和产品设计。通常麦克风数量从2个、4个直至8个(最高音频质量)。下图所示配置仅为示例。

适用平台

目前,Fraunhofer upHear语音质量增强技术(VQE)相关专利授权许可已经开放,其软件库可用于:

  • 桌面操作系统(Windows, Mac, Linux)
  • 移动应用(iOS, Android)
  • 嵌入式系统(例如:ARM Cortex)

Fraunhofer IIS为upHear VQE软件专利被授权方提供广泛的技术支持。

如果您想获取相关技术的专利授权,请填写一下需求表格

Request licensing information: upHear Voice Quality Enhancement

To request a price quote or an evaluation license, please fill in and submit the form.

* Required

Software platform:
Hardware platform
Title
Name