loader

Plattformen & Dienste

Weg mit den Sprachbarrieren

Im Fernsehen werden Sprachbarrieren durch Übersetzungen oder Untertitel überbrückt. Dank künstlicher Intelligenz lassen sich Tonspuren nun sogar weitgehend automatisiert und mit viel geringerem Aufwand in Fremdsprachen überführen. Neue, im IRT mitentwickelte Features ermöglichen es, Zuschauern über Smartphone oder Kopfhörer individuelle Sprachfassungen anzubieten. Ein Showcase weckte auf der IFA und IBC 2019 großes Interesse.

Klaus Merkel, Dr. Rainer Schäfer

Beim Begriff „Barrierefreiheit“ denkt man zunächst an Menschen mit Behinderungen. Aber auch die Sprache kann eine Barriere darstellen, beispielsweise wenn Menschen eine Fremdsprache nicht beherrschen. Bei Medienproduktionen werden fremdsprachige O-Töne in Interviews mit einer Übersetzung überlagert oder für Video-on-Demand (VoD)-Angebote in Originalsprache mit Untertitel angeboten. Hier setzt eine neue Idee an – ermöglicht durch künstliche Intelligenz.  

Dabei wird eine Tonspur durch Kombination einer Speech-to-Text-Spracherkennung, einer Übersetzungsmaschine und einer nachgeschalteten Text-to-Speech-Anwendung weitgehend automatisiert und mit viel niedrigerem manuellem Aufwand in eine Fremdsprache überführt.

Zusätzliche Sprachfassungen über das Internet

Die Eurovox-Initiative der Europäischen Rundfunkunion (EBU) setzt eine solche Übersetzungsmaschine derzeit auf der Basis von Cloud-Diensten um: Ein Videoclip wird in die Cloud geladen und mit einer neuen Tonspur versehen. Übersetzungsfehler können manuell nachbearbeitet werden. Auf der Technical Assembly der EBU entstand die Idee, diesen Ansatz mit den maßgeblich im IRT entwickelten neuen Features von HbbTV 2 zu kombinieren. Dabei können mit einer Mediensynchronisation zusätzliche Sprachfassungen zum Fernsehprogramm über das Internet angeboten werden. Ein kurzfristig entwickelter Showcase lockte auf IFA und IBC 2019 viele Besucher an.

Verschiedene Fernsehbeiträge mit unterschiedlichen Sprechsituationen wurden aus den Mediatheken ausgewählt: Interviews, Moderatoren im Studio, Kommentare aus dem Off. Über die Bedienoberfläche des Eurovox-Dienstes ließ sich die Übersetzung in acht derzeit verfügbaren Sprachen anfordern. Für die Demo wurde jeweils nur die übersetzte Tonspur auf einem Webserver bereitgestellt. Die Originalbeiträge mit der deutschen Tonspur wurden mithilfe eines lokalen Playouts ausgespielt – entsprechend der realen Broadcast-Nutzung. Zugefügt wurde diesem Broadcast-Signal eine schmalbandige „Timeline“ („MPEG-TEMI-Timeline“), wie sie HbbTV 2 für die Synchronisation von IP-Streams zu Broadcast-Streams spezifiziert.

„Das Ende der Sprachbarrieren ist durch den Cloud-Dienst Eurovox machbar und mit HbbTV 2 erlebbar: der Nutzer kann auf dem Smart-TV die bevorzugte Sprache auswählen oder mit dem Smartphone hören. Diese Innovation wurde von EBU und IRT realisiert und bietet großes Potenzial im Programm, beim Zuschauen und für die europäische Öffentlichkeit.“
Dr. Oliver Werner, WDR

Lippensynchrone Wiedergabe

Die lokalen Broadcast-Programme wurden außerdem um eine HbbTV-Applikation ergänzt, die acht weitere Sprachfassungen anbot. Sobald der Nutzer eine Fassung auswählte, wurde diese durch die HbbTV-Applikation im Hintergrund von dem Webserver im Internet abgerufen und über das Sync-Feature von HbbTV 2 mit dem Broadcast-TV-Bild lippensynchron über die TV-Lautsprecher wiedergegeben. Ebenfalls wurde demonstriert, dass HbbTV 2 die zusätzliche Wiedergabe von IP-Audiovarianten auch auf Mobilgeräten synchron zum TV-Bild erlaubt. Das TV-Gerät schickt dabei die Timeline über das Heimnetz und synchronisiert damit den Audioplayer des Mobilgerätes. So ist es möglich, auch einzelnen Zuschauern über Smartphone oder Kopfhörer eine individuelle Sprachfassung anzubieten, während die TV-Lautsprecher den deutschen Broadcast-Ton wiedergeben.

Die demonstrierten Techniken können in der heutigen Ausstrahlung mit dem wachsenden Anteil HbbTV 2-fähiger Geräte unmittelbar im Markt eingesetzt werden. Zusätzliche Sprachfassungen lassen sich dank künstlicher Intelligenz insbesondere für nichtlineare Anwendungen und Genres mit guter Tonqualität mit deutlich geringerem Aufwand erzeugen. Diese Fassungen können auch für OTT (Over-the-top content), beispielsweise im ARD-Mediaplayer, genutzt werden und ein wichtiges Angebot für zukünftige europäische Medienplattformen sein.

Hier geht es zum Demovideo im IRT Lab.