Bessere Spracherkennung für intelligente Assistenten
Die Fraunhofer upHear® Voice Quality Enhancement-Technologie zur Verarbeitung von Mikrofonsignalen ist universell für Sprachassistenzplattformen z.B. in Mobiltelefonen, Smartspeakern oder Smart-Soundbars geeignet. Die upHear-Software hilft dem intelligenten Assistenten, Fernfeld-Sprachbefehle zu verstehen und ermöglicht Barge-in. Zu diesem Zweck entfernt sie störende Geräusche, die von den eingebauten Mikrofonen erfasst werden, extrahiert die Stimme des Nutzenden und eliminiert akustische Echos, die es der Mensch-Maschine-Schnittstelle (Human-Machine-Interface, HMI) ansonsten unmöglich machen würden, die Anfrage des Nutzenden zu verstehen.
Herausforderung
Durch die rasante Weiterentwicklung im Bereich des maschinellen Lernens in den letzten Jahren verbreiten sich sprachgesteuerte Mensch-Maschine-Schnittstellen immer schneller. Diese sind unter anderem in Smartphones oder anderen Geräten mit integrierten Sprachassistenten, sowie Automobilen zu finden. Sprachgesteuerte HMI-Systeme bestehen typischerweise aus den folgenden Bestandteilen:
- Keyword-Spotter: zur Aktivierung des Systems
- Automatisches Spracherkennungs-Modul (ASR): zur Umwandung von Sprache in Text
- Linguistische Datenverarbeitung (Natural Language Understanding Interface, NLUI), um natürliche Konversation mit der Maschine zu ermöglichen
- Modul zur maschinellen Generierung von aussagekräftigen Rückmeldungen in Form von Textantworten (Natural Language Generation, NLG)
- Text-to-Speech-Modul (TTS) für die Erzeugung synthetischer Sprache aus Text
Das Eingangssignal für jegliche sprachgesteuerte HMI-Schnittstelle ist das von den Mikrofonen im Gerät aufgenommene Audio. Um eine angemessene Leistung von Keyword-Spotter und ASR zu gewährleisten, muss auch in akustisch schwierigen Umgebungen eine hohe Qualität der aufgenommenen Sprachsignale erreicht werden.
Unsere Lösung
Fraunhofer upHear Voice Quality Enhancement ist eine vollständig integrierte, flexible Lösung für eine Vielzahl von Mobiltelefonen und weiteren Geräten mit integrierter Sprachassistenz, sowie Konferenzlösungen. Die Technologie kombiniert moderne Mehrkanal-Quellenlokalisierung und Beamforming-Methoden mit Algorithmen zur Echo- und Geräuschreduzierung und liefert dadurch eine außergewöhnliche Audioqualität, auch unter schlechten akustischen Bedingungen. Die fortschrittliche, mehrkanalige akustische Echo-Unterdrückung ermöglicht Sprachansagen während laufender Musikwiedergabe (Barge-In).
Auch wenn die Technologie Anwendungsszenarios mit Einzelmikrofonen unterstützt, empfehlen wir den Einsatz von Mikrofon-Arrays. Dadurch kann die Zuverlässigkeit bei schwierigen akustischen Bedingungen, vor allem bei Fernfeld-Anwendungen, weiter verbessert werden.
Kontaktieren Sie uns, um Informationen über gerätespezifisches Tuning durch unsere Toningenieure, sowie Beratung zu Mikrofon-Platzierungen zu erhalten.