スマート・アシスタント・デバイスでの高度な音声認識
Fraunhofer upHear® ボイス・クオリティ・エンハンスメントは、スマート・アシスタント・エコシステム非依存型 マイクロホン処理技術です。このソフトウェアは、携帯電話をはじめ、スマート・スピーカーやスマート・サウンドバーなどのスマート・アシスタント・デバイスに内蔵されたマイクを用いて、音声認識による人間と機械との対話がしやすくなるように設計されています。またスマート・アシスタント・デバイスが遠距離からの音声命令を理解できるようにし、ヒューマン・マシン・インターフェイス(HMI)にユーザーの要求を理解させられるよう、デバイスのマイクロホンが拾う干渉音を除去し、ユーザーの声を取り出し、エコーを除去することで、バージイン(割り込み)を可能にしています。
課題
この数年の機械学習の急速な進歩により、音声制御ヒューマン・マシン・インターフェイス(HMI)の利用が携帯電話、スマート・アシスタント・デバイス、自動車などの分野で進んでいます。音声制御HMIシステムは、一般的には以下の処理ユニットで構成されています。
- システムを呼び起こすキーワード・スポッター
- 音声をテキストに変換する自動音声認識(ASR)モジュール
- マシンとの自然な対話を可能にする自然言語理解インターフェイス(NLUI)
- ユーザーに対する重要なフィードバック・コマンドを生成する自然言語生成(NLG)モジュール
- テキストから合成音声を生成するテキスト音声合成(TTS)モジュール
音声制御HMIに入力されるのは、デバイス内蔵マイクロホンが捉えたオーディオ・ストリームです。音声制御HMI システムを通常使用する音響環境では、捉えた音声の品質がキーワード・スポッターとASR処理装置の適切な動作性能を保証できるほどには十分でない可能性があります。
当社のソリューション
Fraunhofer upHearボイス・クオリティ・エンハンスメントは、広範囲にわたる携帯電話、スマート・アシスタント・デバイスを対象とした完全統合型の柔軟なソリューションであることに加え、会議ソリューションでもあります。そのテクノロジーは、高度な音源探査手法およびビーム形成手法と、エコーおよびノイズ低減アルゴリズムを組み合わせることで、音響上悪条件であっても抜群の音質を提供します。高度なマルチチャネル音響エコー除去機能によって、音声制御HMIによる常時リスニングの作動時にもバージイン機能が利用できます。
この技術は単一マイクロホンのユースケースをサポートしていますが、とりわけ遠距離からの用途などの厳しい条件下でマイクロホン・アレイを使用し、ユーザー体験を向上させることを推奨します。
当社の音響技師による個別のデバイスのチューニングとマイクロホンの配置に関するコンサルティングについては当社にお問い合わせください。