Fraunhofer upHear®ボイス・クオリティ・エンハンスメント

スマート・アシスタント・デバイスでの高度な音声認識

Fraunhofer upHear® ボイス・クオリティ・エンハンスメントは、スマート・アシスタント・エコシステム非依存型 マイクロホン処理技術です。このソフトウェアは、携帯電話をはじめ、スマート・スピーカーやスマート・サウンドバーなどのスマート・アシスタント・デバイスに内蔵されたマイクを用いて、音声認識による人間と機械との対話がしやすくなるように設計されています。またスマート・アシスタント・デバイスが遠距離からの音声命令を理解できるようにし、ヒューマン・マシン・インターフェイス(HMI)にユーザーの要求を理解させられるよう、デバイスのマイクロホンが拾う干渉音を除去し、ユーザーの声を取り出し、エコーを除去することで、バージイン(割り込み)を可能にしています。

 

課題

この数年の機械学習の急速な進歩により、音声制御ヒューマン・マシン・インターフェイス(HMI)の利用が携帯電話、スマート・アシスタント・デバイス、自動車などの分野で進んでいます。音声制御HMIシステムは、一般的には以下の処理ユニットで構成されています。

  • システムを呼び起こすキーワード・スポッター
  • 音声をテキストに変換する自動音声認識(ASR)モジュール
  • マシンとの自然な対話を可能にする自然言語理解インターフェイス(NLUI)
  • ユーザーに対する重要なフィードバック・コマンドを生成する自然言語生成(NLG)モジュール
  • テキストから合成音声を生成するテキスト音声合成(TTS)モジュール

音声制御HMIに入力されるのは、デバイス内蔵マイクロホンが捉えたオーディオ・ストリームです。音声制御HMI システムを通常使用する音響環境では、捉えた音声の品質がキーワード・スポッターとASR処理装置の適切な動作性能を保証できるほどには十分でない可能性があります。

 

当社のソリューション

Fraunhofer upHearボイス・クオリティ・エンハンスメントは、広範囲にわたる携帯電話、スマート・アシスタント・デバイスを対象とした完全統合型の柔軟なソリューションであることに加え、会議ソリューションでもあります。そのテクノロジーは、高度な音源探査手法およびビーム形成手法と、エコーおよびノイズ低減アルゴリズムを組み合わせることで、音響上悪条件であっても抜群の音質を提供します。高度なマルチチャネル音響エコー除去機能によって、音声制御HMIによる常時リスニングの作動時にもバージイン機能が利用できます。

この技術は単一マイクロホンのユースケースをサポートしていますが、とりわけ遠距離からの用途などの厳しい条件下でマイクロホン・アレイを使用し、ユーザー体験を向上させることを推奨します。

当社の音響技師による個別のデバイスのチューニングとマイクロホンの配置に関するコンサルティングについては当社にお問い合わせください。

 

製品の特長

Fraunhofer upHearボイス・クオリティ・エンハンスメントは、次の機能を最適化し統合することにより音声の品質を向上させています。

  • マルチチャネル音響エコー除去機能(MAEC): デバイスのスピーカーから生じるエコーを減衰させます。
  • 音源方位(DOA): アクティブな話し手の方向を推定します。
  • ビームフォーミング: マイクロホン・アレイが作り出すによって提供される空間的多様性を利用して、指向性サウンドの取得の質を向上させ、遠距離からでもユーザーの音声を抽出します。
  • ノイズ・リダクション(NR)、残響除去、および自動ゲイン制御(AGC): キャプチャされた音声の品質をさらに向上させます。

製品の必要条件

Fraunhofer upHearボイス・クオリティ・エンハンスメントは、デバイス固有の本体に適応できます。そのためマイクロホンとスピーカーはデバイス内で自由自在に配置可能であり、再生中の音声がモノラル、ステレオ、サラウンド、没入型のいずれであっても、最適な動作性能が保証されます。これにより、製品設計の柔軟性が得られ、最適なパフォーマンスが保証されます。線形あるいは円形のマイクロホン・アレイなど、一般的に使用されるアレイ形状がネイティブ・サポートされています。

マルチチャネル音声強調に必要なマイクロホンの数とその配置は、利用方法や製品設計によって異なります。通常、2、4、または最高品質の8までの範囲です。以下の図に構成の例を示します。

発売時期

Fraunhofer upHearボイス・クオリティ・エンハンスメント(VQE)はライセンス形式で提供されます。以下に対するソフトウェア・ライブラリが提供可能です。

  • デスクトップ・プラットフォーム(Windows、Mac、Linux)
  • モバイル・アプリ(iOS、Android)
  • 組み込みシステム(例:ARM Cortex)
フラウンホーファー IIS は、upHearボイス・クオリティ・エンハンスメント (VQE) ソフトウェアのライセンス契約者に幅広い技術サポートを行います。

 

当社のソフトウェアのライセンスにご関心がおありの場合は、下記の要請フォームにご記入ください。

Request licensing information: upHear Voice Quality Enhancement

To request a price quote or an evaluation license, please fill in and submit the form.

* Required

Software platform:
Hardware platform
Title
Name