Spätestens seit der Veröffentlichung von ChatGPT begeistert generative Künstliche Intelligenz Menschen auf der ganzen Welt. Der Nutzen der Technologie geht jedoch weit über text-basierte Chatbots hinaus. Generative KI hilft künftig auch bei automatischen Ansagen in der Bahn oder der Industrie und nutzt dazu natürlich-klingende gesprochene Sprache. Der Bereich Audio und Medientechnologien des Fraunhofer IIS treibt diese Form der generativen KI in einer Vielzahl von Projekten voran.

Es ist ein alltäglicher Blick in die Großraumbüros weltweit. Am Bildschirm sind die Kolleginnen und Kollegen zu sehen, man spricht über ein wichtiges Thema. Im Hintergrund sind allerdings die anderen Mitarbeitenden in eigenen Meetings, die Folge: Die Meetingteilnehmenden hören mehr Störgeräusche als den tatsächlichen Gesprächsinhalt. Wenn künftig generative Künstliche Intelligenz Einzug in die Laptops, Smartphones und Co. hält, dann gehört diese Szene der Vergangenheit an. Mit der sogenannten upHear »Target Speaker Extraction« werden die Parallelgespräche im Hintergrund fast komplett herausgefiltert. Möglich macht das bisher noch die eingesetzte klassische bzw. diskriminative KI: Das Modell muss dazu lediglich einige Sekunden eingelernt werden, um einen digitalen Fingerabdruck der eigenen Stimme zu generieren. Über den Fingerabdruck wird die eigene Stimme verstärkt, die Hintergrundgespräche ausgeblendet. »Das funktioniert auf Grund der KI-Methoden bereits sehr gut«, sagt Jan Plogsties, Strategy Manager generative AI am Fraunhofer IIS. Das Institut hat die Technologie im Rahmen seiner langjährigen Beschäftigung mit Lösungen zur Verbesserung der Audioqualität entwickelt. Nicht zuletzt kommt KI in verschiedenen Produkten der upHear-Familie des Fraunhofer IIS zum Einsatz – vom Smart Speaker über Smartphones bis hin zu Mikrofonen für Telefonkonferenzen. Mit generativer KI kann die Technologie in Zukunft noch effizienter betrieben werden. So könnte die Qualität des Gesagten optimiert werden, auch wenn extrem laute Störgeräusche wie Lüftung, Staubsauger oder Straßenlärm im Hintergrund vorhanden sind.

Generative KI unterscheidet sich von diskriminativer KI dadurch, dass sie ganz neue Inhalte erzeugen kann, die es so vorher noch nicht gab. Damit sind nicht nur Texte, sondern auch neue Bilder, Videos und eben auch Audioinhalte möglich. Die Modelle haben bei ihrem Training sehr große Mengen an Daten gesehen und können daraus mit wenigen Informationen sehr plausible neue Inhalte generieren. Das ist der entscheidende Vorteil gegenüber klassischen KI-Algorithmen.