Zentrum für Digitale Signalverarbeitung mittels Künstlicher Intelligenz - DSAI

Das Fraunhofer IIS kombiniert digitale Signalverarbeitung mit Künstlicher Intelligenz in einem Zentrum zur Beratung, Lizenzierung sowie Erstellung von kundenspezifischen Speziallösungen.

Unterhaltungselektronik, Automobiltechnik, Telekommunikation und intelligente Assistenzsysteme wären ohne digitale Signalverarbeitung nicht denkbar. Jetzt gehen wir den nächsten logischen Schritt, indem wir diese Anwendungsbereiche durch maschinelles Lernen und Künstliche Intelligenz noch weiter voranbringen. So können wir in unseren Kernkompetenzfeldern Lösungen für Probleme finden, die durch reine digitale Signalverarbeitung nicht umsetzbar waren. Aufgrund der anwendungsübergreifenden Bedeutung der Signalverarbeitung und der KI ist es daher essentiell, dass Firmen für ihre Produkte auf exzellente Basistechnologien zurückgreifen können.

Um dies sicherzustellen, baut das Fraunhofer IIS ein Zentrum für Künstliche Intelligenz in der digitalen Signalverarbeitung (DSAI) auf, welches alles dafür relevante Wissen unter einem Dach bündelt.

Arbeitsfelder

Das DSAI adressiert die drei wirtschaftlich bedeutenden Themenfelder, in denen das Fraunhofer IIS seine Kernkompetenzen hat: maschinelles Sehen (Computer Vision), Sprachsignalverarbeitung und Signalverarbeitung für die Datenübertragung. In allen Bereichen lassen sich Ansatzpunkte finden, wie man mittels KI die bisher erzielbaren Ergebnisse noch verbessern kann.

Computer Vision

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: https://policies.google.com/privacy

Vergleich: Traditionelle automatische 3D-Rekonstruktion und Bildsynthese vs. KI-basierte automatische 3D-Rekonstruktion und Bildsynthese. Die Verbesserungen zeigen sich besonders in homogenen Flächen (z.B. Bildschirm des Oszilloskops, Seitenflächen des braunen Eimers) sowie bei Objekten mit komplexen Oberflächen (z.B. blaue Vase) oder feinen Details (Kabelverbindungen des Oszilloskops).

Das Verständnis über Geometrie und Materialeigenschaften von Objekten und Szenen ist eine Schlüsseltechnologie für die Filmproduktion. Darüber hinaus verspricht es neue Möglichkeiten in der räumlichen Audiowiedergabe, der immersiven Kommunikation, der Mobilität und der Automatisierung und Logistik.

Durch die Kombination vorangehender Forschungsergebnisse mit den neuen Möglichkeiten aus dem maschinellen Lernen strebt das DSAI daher eine deutliche Verbesserung dieser Schlüsseltechnologie an. Die zentrale Aufgabe besteht dabei, das gezeigte Potential einer deutlich bessere 3D Rekonstruktionen für praktische Anwendungen verfügbar zu machen.

Langfristig soll es dadurch möglich werden, einen viel realistischeren Eindruck vom dargestellten Umfeld zu bekommen, als es bisher bei einem herkömmlichen (zweidimensionalen) Bild der Fall ist. Eine mögliche zukünftige Anwendung ist das virtuelle Besichtigen einer Immobilie: Der Verkäufer kann mit seinem Smartphone das Innere der Immobilie fotografieren, indem das Gerät langsam durch den Raum bewegt wird – ähnlich, wie man es heute schon zur Erstellung von Panoramaaufnahmen macht. Dank der eingesetzten KI-Methoden zur einfacheren und besseren Umfelddigitalisierung entsteht eine dreidimensionale Darstellung. So entsteht beim potentiellen Immobilienkäufer der Eindruck, tatsächlich vor Ort zu sein. Wenn die Besichtigung online stattfindet, ist es zudem nötig, die Übertragung der anfallenden Daten effizient zu lösen. Basierend auf unseren Vorarbeiten zur Bildkompression wird das DSAI Projekt daher auch Lösungen entwickeln, wie räumliche Bildinformation durch maschinelles Lernen effizienter übertragen werden kann.

Audiosignalverarbeitung

© monsitj - stock.adobe.com

Der Bereich Audio und Medientechnologien prägt seit über 30 Jahren die weltweit eingesetzten Standards und Technologien in der Audio- und Filmindustrie. Heute werden die Systeme und Tools des Fraunhofer IIS in vielen Branchen zur Erstellung, Übertragung und Bereitstellung exzellenter Audio- und Videoinhalte verwendet und ermöglichen Echtzeit-Kommunikation mit höchster Audioqualität. Audio- und Medientechnologien aus Erlangen finden sich in fast allen Computern, Handys und Geräten der Unterhaltungselektronik und werden täglich von Milliarden von Menschen auf der ganzen Welt genutzt. Im Bereich der Audiosignalverarbeitung sorgen Symphoria und die Sonamic-Produktfamilie für ein umhüllendes und optimiertes Klangerlebnis im Auto, während die upHear-Produktfamilie die räumliche Audiowiedergabe oder Aufnahmequalität von professionellen und Consumer-Geräten dramatisch verbessert. Mit KI-Algorithmen wird man zukünftig auch Probleme der Audiosignalverarbeitung lösen können, die bis heute mit herkömmlichen Methoden nicht lösbar waren. Zum Beispiel kann man eine KI darauf trainieren, gesprochene Sprache in bestehendem Filmmaterial zu erkennen, zu separieren und Nutzerinnen und Nutzern so die Möglichkeit geben, den Dialog lauter zu stellen im Vergleich zu Hintergrundgeräuschen im Film. Nach ersten erfolgreichen Tests mit öffentlich-rechtlichen Rundfunkanstalten, soll diese Technologie weiter ausgebaut werden. Auf der Wiedergabeseite kann zum Beispiel bei Smartspeakern die in den Geräten verbauten Mikrofone und KI-gestützte Methoden nutzen, um Wissen über die Raumgeometrie zu erlangen und die Wiedergabe entsprechend automatisch an die Gegebenheiten zu kalibrieren.

Natural Language User Interface (NLUI)

© Fraunhofer IIS / hl-studios

Auch wenn heutzutage bereits viele Anwendungen mittels Spracheingabe gesteuert werden können, so ist man doch erst am Anfang des technisch Möglichen. Traditionelle Signalverarbeitungsmethoden sind nicht in der Lage, mit dynamischen und verrauschten akustischen Umgebungen umzugehen. Zudem sind herkömmliche Sprachsyntheseverfahren schwer einzurichten und lassen eine gewisse Natürlichkeit vermissen. Die große Anzahl von Parametern, die die Reproduktionsqualität gegenseitig beeinflussen, ist mit herkömmlichen Methoden schwer zu modellieren. Hier wollen wir mit KI-gestützten Methoden ansetzen und so zur Verbesserung der sprachgesteuerten Mensch-Maschine-Interaktion beitragen. Damit können beispielsweise Sprachassistenten in akustisch anspruchsvollen Situationen zuverlässiger funktionieren und Informationen in klar verständlicher und in natürlicher Sprache effizient kommunizieren. Die Fraunhofer Institute IIS und IAIS arbeiten gemeinsam unter dem Dach der Marke Allinga an Sprachassistenztechnologien und bieten alle Module eines Sprachassistenten aus eigener Entwicklung an. Allinga lässt sich nicht nur leicht an domänenspezifische Anwendungsfälle anpassen, sondern beachtet auch auf allen Ebenen die Datensouveränität.

Im Projekt Speaker wird die Allinga-Technologie in eine B2B-Sprachassistenzplattform integriert, die es namhaften Industriepartnern des Projekts ermöglicht, Use-Cases umzusetzen und in die Praxis zu übertragen.

Datenübertragung

© your123 - stock.adobe.com

Am Fraunhofer IIS wird seit über 20 Jahren an der Entwicklung optimierter drahtloser Übertragungssysteme gearbeitet. Egal ob über Satellit, im Mobilfunknetz oder im Internet der Dinge, unsere Forscher arbeiten an passgenauen Technologien für jeden Einsatzweck. Stromsparende eingebettete KI-Algorithmen des Fraunhofer IIS ermöglichen echte kognitive Sensoren.

DSAI verbindet KI-Know-how mit Expertise in Kommunikationstechnologien, um mit KI-basierter Signalverarbeitung den Herausforderungen zukünftiger Kommunikationsnetze zu begegnen. Verteiltes Lernen, verteilte Inferenz und Fog-Computing sind wichtige Bausteine für IoT-Sensor-Netze und Mobilfunknetze der nächsten Generation in denen Algorithmen über mehrere Knoten verteilt sind. Gemeinsame Kanal- und Quellencodierung sorgen für mehr Energie- und Bandbreiteneffizienz. KI-basierte Algorithmen für eine gemeinsame Nutzung des begrenzten Frequenzspektrums garantieren indes eine optimierte Nutzung der Kommunikationskanäle.  Die Verwendung von Spiking Neural Networks (SNN) bietet das Potential für effiziente Signalverarbeitung und –übertragung. Mit dem Trend zur Nutzung höherer Übertragungsfrequenzen bei 5G und 6G, werden gemeinsame Funksysteme für Kommunikation und Radarsensing interessant. Hier soll KI für eine optimierte Ressourcenallokation sorgen. Eine universelle Demoplattform für die Nutzung von KI-Algorithmen in Kommunikationssystemen rundet die Forschungsarbeiten ab.

Computer Vision: Photogrammetry and Neural Radiance Fields - Chances and Challenges

Bewerben Sie sich!

Sie waren schon immer von KI fasziniert? Sie haben Ideen und Forscherdrang, wenn es um KI-gestützte Signalverarbeitung geht? Dann bewerben Sie sich doch gern initiativ bei uns. Unter dem Betreff "Initiativbewerbung DSAI" können Sie Ihre Bewerbung an personalmarketing@iis.fraunhofer.de richten.

Fördergeber

Logo StMWi
© StMWi

Das DSAI-Zentrum erhält im Zeitraum von 2020 bis 2025 Zuwendungen vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie in Höhe von 13 Millionen Euro.

Zurück zu Audio und Medientechnologien

Zurück zum Bereich Kommunikationssysteme