Fraunhofer upHear® Voice Quality Enhancement

Bessere Spracherkennung für intelligente Assistenten

Die Fraunhofer upHear® Voice Quality Enhancement-Technologie zur Verarbeitung von Mikrofonsignalen ist universell für Sprachassistenzplattformen z.B. in Mobiltelefonen, Smartspeakern oder Smart-Soundbars geeignet. Die upHear-Software hilft dem intelligenten Assistenten, Fernfeld-Sprachbefehle zu verstehen und ermöglicht Barge-in. Zu diesem Zweck entfernt sie störende Geräusche, die von den eingebauten Mikrofonen erfasst werden, extrahiert die Stimme des Nutzers und eliminiert akustische Echos, die es der Mensch-Maschine-Schnittstelle (Human-Machine-Interface, HMI) ansonsten unmöglich machen würden, die Anfrage des Nutzers zu verstehen.

 

Herausforderung

Durch die rasante Weiterentwicklung im Bereich des maschinellen Lernens in den letzten Jahren verbreiten sich sprachgesteuerte Mensch-Maschine-Schnittstellen immer schneller. Diese sind unter anderem in Smartphones oder anderen Geräten mit integrierten Sprachassistenten, sowie Automobilen zu finden. Sprachgesteuerte HMI-Systeme bestehen typischerweise aus den folgenden Bestandteilen:

  • Keyword-Spotter: zur Aktivierung des Systems
  • Automatisches Spracherkennungs-Modul (ASR): zur Umwandung von Sprache in Text
  • Linguistische Datenverarbeitung (Natural Language Understanding Interface, NLUI), um natürliche Konversation mit der Maschine zu ermöglichen
  • Modul zur maschinellen Generierung von aussagekräftigen Rückmeldungen in Form von Textantworten (Natural Language Generation, NLG)
  • Text-to-Speech-Modul (TTS) für die Erzeugung synthetischer Sprache aus Text

Das Eingangssignal für jegliche sprachgesteuerte HMI-Schnittstelle ist das von den Mikrofonen im Gerät aufgenommene Audio. Um eine angemessene Leistung von Keyword-Spotter und ASR zu gewährleisten, muss auch in akustisch schwierigen Umgebungen eine hohe Qualität der aufgenommenen Sprachsignale erreicht werden.  

 

Unsere Lösung

Fraunhofer upHear Voice Quality Enhancement ist eine vollständig integrierte, flexible Lösung für eine Vielzahl von Mobiltelefonen und weiteren Geräten mit integrierter Sprachassistenz, sowie Konferenzlösungen. Die Technologie kombiniert moderne Mehrkanal-Quellenlokalisierung und Beamforming-Methoden mit Algorithmen zur Echo- und Geräuschreduzierung und liefert dadurch eine außergewöhnliche Audioqualität, auch unter schlechten akustischen Bedingungen. Die fortschrittliche, mehrkanalige akustische Echo-Unterdrückung ermöglicht Sprachansagen während laufender Musikwiedergabe (Barge-In).  

Auch wenn die Technologie Anwendungsszenarios mit Einzelmikrofonen unterstützt, empfehlen wir den Einsatz von Mikrofon-Arrays. Dadurch kann die Zuverlässigkeit bei schwierigen akustischen Bedingungen, vor allem bei Fernfeld-Anwendungen, weiter verbessert werden.

Kontaktieren Sie uns, um Informationen über gerätespezifisches Tuning durch unsere Toningenieure, sowie Beratung zu Mikrofon-Platzierungen zu erhalten.

Produkteigenschaften

Fraunhofer upHear Voice Quality Enhancement verbessert die Sprachqualität durch ein optimiertes Zusammenspiel der folgenden Funktionalitäten:

  • Multichannel Acoustic Echo Cancellation (MAEC) unterdrückt Echos vom Gerätelautsprecher.
  • Direction of Arrival (DOA) schätzt die Richtung des Sprechers.
  • Beamforming nutzt die räumliche Verteilung mehrerer Mikrofone, um eine richtungsorientierte Aufnahme zu realisieren und die Stimme des Nutzers selbst aus weiter Entfernung zu extrahieren.
  • Noise Reduction (NR), Enthallung (Dereverberation) und Automatic Gain Control (AGC) optimieren weiter die Qualität der aufgenommenen Sprache.

Produktanforderungen

Fraunhofer upHear Voice Quality Enhancement kann individuell auf Gehäuse und Mikrofon-Konfiguration eines Geräts angepasst werden. Die Technologie ist flexibel sowohl bei der Mikrofon- als auch bei der Lautsprecherkonfiguration des Geräts und sorgt so für eine optimale Leistung, unabhängig davon, ob Mono-, Stereo-, Surround- oder 3D-Klang wiedergegeben wird. Dies ermöglicht optimale Qualität bei gleichzeitiger Flexibilität im Produktdesign. Weit verbreitete Mikrofon-Anordnungen wie linear oder zirkular werden von Haus aus unterstützt.

Die für Multikanal-Sprachverbesserung nötige Anzahl und Anordnung der Mikrofone hängen vom Anwendungsszenario sowie dem Produktdesign ab. Typisch sind 2, 4 oder bis zu 8 Mikrofone, um eine höchstmögliche Qualität zu erreichen. Die in der folgenden Grafik gezeigten Konfigurationen sind dabei lediglich als Beispiele zu verstehen.

 

Verfügbarkeit

Fraunhofer upHear Voice Quality Enhancement (VQE) wird zur Lizenzierung angeboten. Die Software-Bibliothek ist verfügbar für:

  • Desktop-Plattformen (Windows, Mac, Linux)
  • Mobile Apps (iOS, Android)
  • Eingebettete Systeme (z.B. ARM Cortex)

Das Fraunhofer IIS bietet umfangreiche technische Unterstützung für Lizenznehmer der upHear VQE-Software an.

Wenn Sie an einer Software-Lizenzierung interessiert sind, füllen Sie bitte das untenstehende Formular aus.

Lizenzanfrage: upHear Voice Quality Enhancement

Bitte füllen Sie für weitere Fragen zur Technologie und ihrer Lizenzierung das Formular aus und schicken Sie es dann ab.

* Required

Software-Plattform
Hardware-Plattform
Anrede
Name