Das erfordert jedoch sehr viel Zeit und Manpower – aktuell werden Videos und Tonaufnahmen meist noch manuell gesichtet. Das heißt: Es dauert deutlich länger als eine Stunde, um ein Video von einer Stunde zu sichten und zu indizieren, bzw. zu bewerten. Das Ergebnis ist zudem subjektiv, also stets abhängig vom Betrachter.

Um diesen Prozess zu automatisieren, drastisch zu beschleunigen und die Qualität zu erhöhen, hat ein Projektteam aus Al Jazeera, RTÉ (Raidió Teilifís Éireann, die öffentlich-rechtliche Rundfunkgesellschaft in der Republik Irland), Associated Press (AP), V-Nova, Metaliquid, QCRI und Tech Mahindra eine KI-basierte Lösung entwickelt.   

Intelligente Algorithmen analysieren sogar Videos

Sie setzt auf eine spezielle Anwendung von KI: die automatisierte Bilderkennung. Die selbstlernenden Algorithmen erzielen hier mittlerweile so gute Ergebnisse, dass die Anwendungen heute von der Bildersuche im Internet über die Gesichtserkennung bis zur Qualitätssicherung in der Produktion reichen.

Aktuell ist die Bilderkennung hauptsächlich auf statische Bilder beschränkt. Das Deep-Learning Framework, das das Projektteam entwickelt hat, verbindet jedoch einen speziell auf die Medienbranche zugeschnittenen, selbstoptimierenden Gesichts-/Objekt-Erfassungs- und -Erkennungs-Algorithmus mit einem Kompressionsformat für mehrere Auflösungen (Multi-Resolution).Damit wird es möglich, innerhalb weniger Sekunden riesige Mengen an Bildern und Videos automatisiert zu analysieren und Personen sowie (kritische) Inhalte zu erkennen. So lässt sich Content schnell, mit weniger Arbeitskraft und viel exakter semantisch indizieren – sogar für Echtzeit-Anwendungen, wie Live-Berichterstattungen.

Hierfür extrahiert das Deep-Learning Framework zeitcodierte Metadaten. Bei einer Live-Reportage kann das z.B. die Person des Sprechers (David Chater) sein und das, was er in dem Moment sagt ("…Young protesters say they must see a difference now and that is a view that is being supported by many people here in the Place de République …"), außerdem verschiedene Elemente, die um ihn herum zu sehen sind (Statue der Marianne, Protestschilder usw.).

Der Algorithmus generiert daraus wiederum Metadaten, die automatisch semantisch indiziert, also getaggt, werden. Zum Beispiel wird der Sprecher als Moderator des Al Jazeera Media Network erkannt, der Ort als Platz der Republik, Paris, Frankreich. Als Kontext generiert der Algorithmus "Demonstranten unterstützen Aktionen gegen den Klimawandel". Unter "Topic Modeling", also als "Thema" der Reportage erscheint in den Metadaten: Klimawandel-Demonstration. 

Analysierbares Kompressionsformat für noch mehr Tempo

Um den Vorgang der Bildanalyse noch weiter zu beschleunigen, hat das Team den Algorithmus mit einer Kompressions-Software verbunden. Das Besondere an ihr ist, dass sie es auch im komprimierten Format erlaubt, die Daten zu analysieren. So lässt sich mit der Lösung von Metaliquid ein Video 10 x schneller als ein unkomprimiertes Video analysieren, kombiniert mit dem Deep-Learning Framework von V-Nova verkürzt sich die Zeit nochmal um ein Drittel. Das bedeutet: Was bisher 48 Minuten gedauert hat, braucht mit diesen Lösungen nur noch 1 Minute und 4 Sekunden. Die Time-to-Air reduziert sich entsprechend.

Berichterstattungen aus dem Feld

Dieselbe Technologie hilft auch beim mobilen Journalismus. Live-Videos auf Facebook oder Periscope und ähnliche Formate haben die Berichterstattung vom Geschehen vor Ort auch auf den klassischen Kanälen immer beliebter gemacht. Die Bild- und Ton-Daten ohne Verluste oder Aussetzer schnell an den Newsroom zu übertragen, ist jedoch nicht immer möglich – vor allem im ländlichen Raum oder in Gegenden mit schwankender Netzabdeckung kann das zu einem Problem werden.

Die Übertragung via Satellit schafft zwar Abhilfe, ist jedoch sehr teuer. Der Ausbau des Mobilfunknetzes der 5. Generation (5G) sowie Netzwerke der Zukunft sollen Mobilgeräte mit möglichst hohen Datenraten versorgen und so die Effizienz der Datenübertragung zu erhöhen. Aktuell ist 5G in Deutschland jedoch nur in ausgewählten Städten verfügbar – bis eine ansehnliche Netzabdeckung erreicht ist, wird es noch dauern.

Neben der verfügbaren Bandbreite spielt gerade bei der mobilen Datenübertragung die Größe der Datei, die verschickt werden soll, eine entscheidende Rolle. Um sie zu reduzieren, sind herkömmliche Videocodierungstechniken kaum geeignet. Denn sie benötigen zusätzliche Technologien, die verhindern, dass die Aufnahmen unterbrochen werden. Das macht das Verfahren kompliziert und erfordert meist die Nutzung der Cloud, die bei einem mobilen Einsatz in der Regel nicht verfügbar ist.

 Auch hierfür hat ein Projektteam – in diesem Fall aus Al Jazeera, RTÉ, BBC und AP sowie V-Nova, Aviwest und Tech Mahindra – einen neuen Ansatz mit modernsten KI-gestützten Bild- und Video-Kompressions-, Rendering- und Kodierungstechniken entwickelt. Durch die Kombination der KI-basierten Softwarebibliothek Perseus mit maschinellem Lernen und einer optimierten Rate-Control erhöht sie die Bildqualität der Videos pro Bandbreite.

Damit können Journalisten und Reporter ihre Daten selbst bei einer unzuverlässigen Mobilfunkabdeckung mit einer höheren Geschwindigkeit und Zuverlässigkeit übertragen. Das gilt für Live-Berichterstattung ebenso wie für aufgezeichnete Inhalte aus dem Feld.

Autor:

Michael Schultheiss ist Senior Manager Business Development Media & Entertainment DACH & Eastern Europe bei Tech Mahindra


Autor:

W&V Leserautor

W&V ist die Plattform der Kommunikationsbranche. Zusätzlich zu unseren eigenen journalistischen Inhalten erscheinen ausgewählte Texte kluger Branchenköpfe. Einen davon haben Sie gerade gelesen.