KI-Technologie für deutliche TV-Dialoge

Beschwerden über schwer verständliche Sprache sind bei den meisten Fernsehsendern ein wohlbekanntes Problem. Unsere KI-basierte Technologie MPEG-H Dialog+ bietet neue Möglichkeiten, aus bestehenden Audiomischungen eine alternative »Klare Sprache«-Version mit abgesenkten Geräuschen und Musik zu erzeugen. Diese wird den Nutzenden als zusätzliche Tonspur im On-Demand-Segment der ARD Mediathek zur Verfügung gestellt.

Im Jahr 1991 dokumentierte erstmals eine Studie der englischen BBC regelmäßige Beschwerden über schwer verständliche Sprache in Filmen. Als Grund für die Verständnisschwierigkeiten wurden die zu hohe Lautstärke von Hintergrundgeräuschen und Musik identifiziert. Die Ergebnisse der Studie waren jedoch nicht eindeutig; es erschloss sich erst später, dass persönliche Präferenz und Höranstrengung für das Sprachverständnis von größter Bedeutung sind. In der Studie wurde auch darauf hingewiesen, dass das Rundfunksystem, das damals genutzt wurde, nicht in der Lage sei, eine zusätzliche Tonspur mit erhöhtem Sprachpegel zu übertragen. Mittlerweile hat sich vieles geändert: Schon 2011 führten die BBC und das Fraunhofer IIS während der Wimbledon Championships einen öffentlichen Feldtest durch, bei dem die Zuschauerinnen und Zuschauer die Möglichkeit hatten, den Dialogpegel zu personalisieren. Damit war Dialogue Enhancement als vom Sender ermöglichter »objektbasierter« Service geboren (siehe Infokasten).

Doch obwohl die objektbasierte Soundproduktion weltweit zunehmend an Bedeutung gewinnt, werden auch heute die meisten Inhalte noch rein kanalbasiert produziert, übertragen und archiviert. Für die Separation von Dialog aus TV-Inhalten wurden bis vor wenigen Jahren noch traditionelle, modellbasierte Signalverarbeitungsmethoden eingesetzt. Heute werden diese Ansätze von Deep Neural Networks (DNNs) an Leistung deutlich übertroffen. Auch MPEG-H Dialog+ nutzt modernste DNNs, um eine Dialogseparation und damit die Personalisierung des Dialogs mit hoher Qualität auch für Archivmaterial zu ermöglichen. Der Erfolg gibt dem Ansatz recht: Die Technologie wurde für die ersten nationalen Feldtests in Deutschland eingesetzt, in denen DNNs Dialog Personalisierung im TV ermöglichen konnten.

Hochleistungstraining für Netzwerke

MPEG-H Dialog+ ist eine dateibasierte Dialogseparations-Technologie, die am Fraunhofer IIS entwickelt wurde. Ihr Kern ist ein neuronales Netzwerk, das die Dialogtrennung durchführt – in diesem Fall ein »Deep Convolutional Neural Network«. Es wird mit einer speziell aufbereiteten Audiodatenbank trainiert. Die Trainingsdaten basieren auf realen Sendeinhalten, die dem Fraunhofer IIS von Fernsehsendern und Produktionsfirmen zur Verfügung gestellt werden. Für das DNN-Training werden Dialog sowie Musik und Effekte (M&E) als separate Stems benötigt. Bei Stems handelt es sich um zusammengefasste Tonspuren. Die Audio-Stems werden manuell editiert, um alle Teile auszuschließen, bei denen Nicht-Sprachgeräusche im Dialog-Stem oder Sprache im M&E-Stem vorhanden sind. Dies verhindert ein fehlerhaftes Training, bei dem beispielsweise Geräusche fälschlich als Sprache erkannt und getrennt werden.

Das neuronale Netzwerk erhält als Eingangssignal den Mix aus den Komponenten und separiert sie dann automatisch, sodass sie am Ausgang wieder als einzelne Elemente vorliegen und neu zusammengemischt werden können. Ziel ist es, diese Elemente weitestgehend an die separat vorliegenden Komponenten anzunähern. Eine möglichst große Vielfalt der Trainingsdaten ist hierbei für Qualität und Robustheit des Modells essenziell, um die Bandbreite der Sendungsinhalte abdecken zu können. In den Daten sind sowohl Sprecherinnen als auch Sprecher vertreten. Die Beiträge stammen aus verschiedenen Genres, von Naturdokumentationen bis hin zu Sportsendungen und Spielfilmen. Die Sprache der Trainingsinhalte ist bisher überwiegend Deutsch, aber erste Projekte in anderen Sprachen deuten darauf hin, dass Dialog+ auch hier gute Ergebnisse liefern kann.

Die Mischung macht’s

Dialogseparation ermöglicht es, Dialog- und Nicht-Dialog-Signale in bestehenden Mischungen zu trennen. Aber was macht man danach mit den getrennten Komponenten, um eine neue, besser verständliche Tonmischung zu erhalten? Hier kommt das automatische Remixing von MPEG-H Dialog+ ins Spiel, bei dem eine statische und eine zeitlich variierende, dynamische Hintergrundabsenkung kombiniert werden können. Die statische Absenkung verringert den Pegel des separierten Hintergrunds über das gesamte Signal hinweg um einen vorgegebenen dB-Wert. Dies hat mehrere Vorteile, wie beispielsweise die generelle Absenkung von Sounddesign und Musik, deren oftmals recht hoher Pegel von vielen Menschen als störend empfunden wird, oder auch die klare und schnelle Unterscheidbarkeit von Originalmischung und »Klare Sprache«-Fassung. Eine Absenkung des Hintergrunds ohne das Vorhandensein eines Dialogs ist jedoch nicht zwingend notwendig, im Extremfall kann sie sogar Ästhetik, künstlerische Intention und Klänge von erzählerischer Bedeutung stören. In solchen Fällen ist es sinnvoll, den Hintergrundpegel nur dann abzusenken, wenn das Dialogsignal vorhanden ist und nur so viel abzusenken, wie zwingend erforderlich. Auch hierfür gibt es eine Lösung des Fraunhofer IIS: den »Adaptive Background Attenuation«-Algorithmus, der mithilfe weniger einstellbarer Parameter automatisch eine dynamische neue Mischung generiert.

»Klare Sprache« für die ARD Mediathek

Ist Sprachverständlichkeit wirklich ein so ein großes Problem? Die kurze Antwort: Ja! Die Liste an Beschwerden über unverständliche Sprache ist lang. Aus diesem Grund wurde 2020 vom Westdeutschen Rundfunk (WDR) und vom Fraunhofer IIS ein gemeinsamer Online-Test durchgeführt. Über 2000 Menschen nahmen daran teil und konnten im ARD-Player zwischen dem Original-Mix und einer Version mit abgesenktem Hintergrund umschalten, welche die ARD »Klare Sprache« nennt. Im Anschluss daran beantworteten die Hörerinnen und Hörer eine Online-Umfrage. Hier stellte sich heraus, dass 68 Prozent aller Teilnehmenden oft oder sehr oft Probleme haben, TV-Dialoge zu verstehen. Diese Problematik verstärkt sich mit zunehmendem Alter. 90 Prozent aller Teilnehmenden über 60 Jahren gaben Schwierigkeiten beim Verständnis von TV-Dialogen an. Die Möglichkeit, zu einer »Klare Sprache«-Mischung zu wechseln, gefiel 83 Prozent aller Teilnehmenden – auch denen, die angaben, keine oder wenig Probleme mit der Sprachverständlichkeit zu haben. Dies zeigt, dass es sich nicht um ein Randthema handelt, sondern sich der Wunsch nach besser verständlicher Sprache bzw. nach einer Auswahlmöglichkeit durch die gesamte Hörerschaft zieht.

Anschließend wurden bei den Kooperationspartnern WDR und Bayerischer Rundfunk (BR) Feldtests mit MPEG-H Dialog+ durchgeführt, bei denen »Klare Sprache«-Tonspuren für verschiedene Produktionen wie »Tatort« oder »Drei Haselnüsse für Aschenbrödel« produziert und zur Verfügung gestellt wurden. Beim WDR erfolgte die Ausspielung von »Klare Sprache« als zusätzliches Audiosignal über DVB-S, beim BR wurde »Klare Sprache« über HbbTV zugeführt und synchron dem bestehenden Broadcastsignal hinzugefügt. Einige der WDR-Produktionen wurden anschließend im Video-on-Demand Service der ARD Mediathek angeboten und inzwischen mit weiteren Produktionen ergänzt. Die Bereitstellung einer zusätzlichen »Klare Sprache«-Tonspur bedeutet keinen erheblichen Mehraufwand und kann direkt in die aktuellen Workflows der bisherigen Mediathek-Inhalte eingefügt werden. Die »Klare Sprache«-Mischung wird automatisiert aus dem Original-Mix erstellt und in die ARD Mediathek eingespeist.

© Fraunhofer IIS

Fit für die Zukunft des Fernsehens

Auch im Bereich Rundfunk und Streaming werden in Zukunft zunehmend objektbasierte Formate, »Next Generation Audio« (NGA) genannt, zum Einsatz kommen. Mit MPEG-H Dialog+ kann neben der kanalbasierten »Klare Sprache«-Stereomischung auch automatisch eine Datei erzeugt werden, die getrennte Audioobjekte und die für NGA unerlässlichen Metadaten in sich vereint. Solche Dateien sind als Produktionsformat für ein NGA-Distributionsverfahren geeignet und können direkt in MPEG-H Audio encodiert werden. Ein solcher Workflow wurde beim WDR testweise inklusive Encoding und Wiedergabe in einer MPEG-H-fähigen App implementiert.

In der Film- und Fernsehproduktion werden immer häufiger cloudbasierte Dienste verwendet. Sie ermöglichen die schnelle und einfache Skalierung von Produktionsabläufen und können über das Internet von einer breiten Schicht von Anwenderinnen und Anwendern genutzt werden. So lassen sich auch Initialierungs- und Wartungskosten im Bereich Software-as-a-Service deutlich reduzieren. Auch die NGA-Technologien aus dem FraunhoferIIS wurden so konzipiert, dass sie diesen Anforderugen entsprechen und sich in modernste Arbeitsabläufe integrieren lassen. Damit sind sie nicht nur sofort einsetzbar, sondern auch zukunftssicher.

Kontakt