Nachrichten & Themen
Mediathek & TV
Audio & Radio
SachsenSachsen-AnhaltThüringenDeutschlandWeltLeben
Die Kommunikation mit den Nutzerinnen und Nutzern verbessern: In dem Projekt "What's there, what's missing" arbeiten Journalisten und Data Scientists von MDR, BR und ida zusammen. Bildrechte: IMAGO / Panthermedia | Collage: MDR

What's there, what's missingAI-Fellowship: Was wir bisher gelernt haben

21. Oktober 2022, 18:54 Uhr

Automatisierungen, Algorithmen und der Einsatz von maschinellem Lernen können für viele Zwecke im Journalismus nutzbar gemacht werden. Ein Team aus Datenjournalisten und Programmierern des Bayerischen Rundfunks, des Mitteldeutschen Rundfunks und der Digitalagentur ida ist Teil des internationalen JournalismAI-Fellowships, um im Austausch mit Redaktionen auf der ganzen Welt KI-basierte Lösungen für redaktionelle Fragen und Probleme zu finden.

von Martin Paul (MDR) und Jörg Pfeiffer (BR)

Der Einsatz von Algorithmen und Automatisierungen in Redaktionen kann verschiedenen Zielen dienen: der Analyse von großen Datenmengen beispielsweise oder aber auch der Arbeitserleichterung bei sich immer wieder wiederholenden Aufgaben. An diesem Punkt setzt das gemeinsame Projekt des Bayerischen Rundfunks, des Mitteldeutschen Rundfunks und der Digitalagentur ida, einer Tochter des MDR und von ZDF Digital, an.

Teilnehmerinnen und Teilnehmer des Journalism AI Fellowships 2022 Bildrechte: JournalismAI/LSE

Im Rahmen des Journalism AI-Fellowships der London School of Economics and Political Science dürfen nun seit Juni 2022 Journalisten, Entwickler und Machine-Learning-Experten der beiden öffentlich-rechtlichen Rundfunkanstalten in einem gemeinsamen Projekt zusammenarbeiten. Beide Medienhäuser haben zuvor schon Erfahrungen im Bereich der Automatisierung im Journalismus gesammelt, der BR mit einem eigenen AI and Automation Lab und der MDR zusammen mit ida unter anderem bei der Durchführung und Entwicklung eines Modells für eine automatisierte Wahlberichterstattung.

Die Idee: Themen erkennen, eine bessere Kommunikation ermöglichen

BR und MDR sind öffentlich-rechtliche Sender mit dem Auftrag, Nutzerinnen und Nutzer die Teilnahme am demokratischen Diskurs zu ermöglichen – auch indem sie ein breites Spektrum an Themen, Perspektiven und Meinungen abbilden und mit den Leserinnen und Lesern ins Gespräch kommen. Tausende Kommentare werden täglich unter den Berichten auf den Internetseiten von BR und MDR publiziert, von Redakteurinnen und Redakteuren gelesen, veröffentlicht und in eigenen Artikeln oder Beiträgen auf den Social Media-Plattformen, im Hörfunk, Fernsehen verwendet und weiterdiskutiert. Sie sind auch eine wichtige Möglichkeit, auf die journalistischen Inhalte reagieren zu können.

Texte verstehen und Wörter erkennen: Methoden des Natural Language Processing (NLP) sind besonders für den Journalismus interessant. Bildrechte: IMAGO / Panthermedia

Für die Redaktionen ist es jedoch aufgrund der großen Anzahl der Kommentare und Beiträge herausfordernd, dieses Feedback effektiv zu sichten und für die weitere Arbeit und Diskussionen zu nutzen. Daraus ist zu Beginn des AI-Fellowships die Frage entstanden, ob es möglich ist, mithilfe von Algorithmen und Machine-Learning-Modellen, sowohl die Themen in Artikeln und Kommentaren automatisiert identifizieren als auch herauszufinden, wo Redaktionen und einzelne Autorinnen direkt angesprochen und auf weitere Diskussionen und Entwicklungen eines Themas oder auf Fehler hingewiesen werden.

Klicken Sie auf die folgende Überschrift, um den Inhalt der Infobox auszuklappen und zu lesen.

👇 Was ist Künstliche Intelligenz, Machine Learning und Natural Language Processing

Viele Menschen nutzen ganz selbstverständlich Handynavigation, Übersetzungsprogramme und bekommen in den Sozialen Medien und Shoppingportalen automatisiert Empfehlungen. Diese Anwendungen werden oft mit Programmen ausgeführt, die auf Methoden und Modellen sogenannter  Künstlicher Intelligenz (KI) (englisch auch Artificial Intelligence, AI) beruhen. Das heißt, Programme sind unter anderem in der Lage, aus vorher definierten Datensätzen zu lernen, was die Lösung für bestimmte Aufgaben sein könnte. Diese Art von Programmieransätzen werden daher auch oft als Maschinelles Lernen (machine learning) bezeichnet. Bei der Erkennung und Weiterverarbeitung von Texten werden oft Methoden des sogenannten Natural Language Processing (NLP) angewandt. Diese Techniken und Algorithmen helfen, natürliche Sprache computerlesbar zu machen und sind aus diesem Grund besonders für den Einsatz im Journalismus interessant. Mit der komplexen Intelligenz im menschlichen Sinn hat Künstliche Intelligenz wenig zu tun, da die einzelnen Modelle auf sehr spezialisierte Aufgaben trainiert sind.

Modellen und Techniken der künstlichen Intelligenz können im Journalismus eingesetzt werden, zum Beispiel beim automatisierten Schreiben von Sport- oder Börsenberichten, bei der Übersetzung von Texten oder dem Erkennen und Anwenden von Sprache im grammatikalisch korrekten Sinn. Bei dem Einsatz von Automatisierungen im Journalismus ist es besonders wichtig, ethische Standards und Methoden transparent zu machen, um so Fehler schnell zu erkennen und anderen zu ermöglichen aus der Programmierung zu lernen. Für die Verwendung von Algorithmen und Automatisierungen hat sich beispielsweise der BR Regeln gegeben und hier festgehalten.

Warum der BR ein AI und Automation Lab hat, wird hier beschrieben. Wie der MDR und ida bei seiner automatisierten Wahlberichterstattung vorgegangen ist und welche Ziele damit verfolgt wurden, können Sie hier nachlesen.

Der Vorteil einer technischen Unterstützung bei diesen Aufgaben ist, dass eine Sortierung von Kommentaren und Userbeiträgen den Redaktionen hilft, schneller zu reagieren und ihr Publikum besser zu verstehen. Sie kann dabei helfen, den Redaktionen bei Tausenden Kommentaren täglich zeitnah auf Fragen und Reaktionen zu reagieren und die unterschiedlichen Themen im Blick zu behalten.

Letztendlich kann ein solcher Algorithmus auch dabei unterstützen, Fragestellungen und Aspekte eines Themas zu identifizieren, die so in dem journalistischen Beitrag noch nicht behandelt wurden. Redaktionen können damit nicht nur besser mit ihren Nutzerinnen und Nutzern kommunizieren, sondern auch ihr inhaltliches Angebot erweitern, um ihrem Informationsauftrag noch besser gerecht zu werden.

Mit dieser Idee haben sich BR, MDR und ida für das JournalismAI-Fellowship beworben und dürfen nun bis Ende des Jahres zusammen eine Lösung entwickeln. Dabei profitieren sie von den Erfahrungen der anderen teilnehmenden Teams internationaler Medienhäuser, die auch an Lösungsansätzen arbeiten, wie Algorithmen und Automatisierungen ihnen bei der Arbeit und bei journalistischen Fragestellungen helfen können.

Fail early: Ein nützliches Feature zu entwickeln, ist schwer

Ausgehend von der vorangegangenen Fragestellung ist zu Beginn des Fellowships der Titel des gemeinsamen Projekts entstanden: What's there, what's missing – was so viel heißt wie: Was ist vorhanden, was fehlt.

MDR, ida und BR haben zu Beginn der Projektphase verschiedene Anwendungsszenarien diskutiert, die mithilfe von Algorithmen, genauer dem sogenannten Topic Modeling realisierbar sein würden. Topic Modeling ist im Bereich des maschinellen Lernens ein Verfahren, das eine automatisierte Inhaltsanalyse und Mustererkennung in Texten ermöglicht.

Ein Prinzip in der Konzeption von Projekten, vor allem bei aufwendigen und komplexen Entwicklungen, ist die Methode des schnellen Scheiterns, des sogenannten Fail Early. Fehler werden zwangsläufig passieren, damit diese aber möglichst früh abgefangen werden, versucht man die Ursachen dafür schon zu Beginn der Entwicklung herbeizuführen.

Prodigy ist ein Tool, mit dem man Textpassagen markieren kann, um damit ein Machine-Learning-Modell zu trainieren. Bildrechte: Screenshot: MDR

Deswegen sind gleich zu Beginn des Projektes ausführliche Nutzerinterviews mit Social Media-Redakteurinnen und Redakteuren geführt worden, um herauszufinden, was die Redaktionen im BR und MDR wirklich an Unterstützung benötigen. Außerdem sind gleich zu Beginn regelmäßige Feedbackgespräche mit den Kolleginnen und Kollegen in die Entwicklung integriert worden.

Dabei hat sich herausgestellt, dass die meisten sich Tools zur effektiveren Bearbeitung der Tausenden Kommentare täglich und damit eine Zeitersparnis wünschen. So ist den Redaktionen äußerst wichtig, zeitnah mitzubekommen, wenn in den Kommentaren Autoren und Autorinnen direkt angesprochen werden, wo auf Fehler hingewiesen wird oder wenn den jeweiligen Redaktionen Vorschläge für weitere Recherchen gemacht werden.

Zum einen, weil diese Kommentare für die eigene redaktionsinterne Weiterentwicklung von Themen benötigt werden, zum anderen, weil es wichtig ist, den Nutzerinnen und Nutzern schnell und konkret antworten und in den Austausch treten zu können.

Um dieses Ziel zu erreichen, wird ein eigenes NLP-Modell trainiert, um in Tausenden von Kommentaren die unterschiedlichsten Formen einer Ansprache an die Redaktion zu erkennen. Voraussetzung dafür ist, bisher mehr als 7.000 Kommentare von BR und MDR durchzulesen und darin zu markieren, an welchen Stellen genau die Redaktionen erwähnt werden.

Klicken Sie auf die folgende Überschrift, um den Inhalt der Infobox auszuklappen und zu lesen.

👇 Die Programmarchitektur

Die Programmarchitektur wird aus verschiedenen Komponenten bestehen, aufbauend auf Schnittstellen (APIs) zu den jeweiligen Daten- und Redaktionssystemen. Eingehende Kommentare werden an eine Klassifizierungskomponente weitergegeben, um mit sogenanntem String Matching und dem trainierten Machine Learning Model Kommentare mit direkten Erwähnungen zu erkennen. Außerdem wird eine Entity-Erkennung verwendet, um genau zu erkennen, in welchem Teil des Kommentars die direkte Erwähnung stattgefunden hat.

Neue eingehende Daten und Kommentare werden außerdem an eine Re-Training-Komponente weitergeleitet. Dieses Modul baut auf maschinelles Lernen auf und verbessert die Erkennung von Erwähnungen.

Immer wenn das System in der Folge einen Kommentar mit einer direkten Erwähnung findet, sendet eine Publisher-API den Kommentar an ein von der Redaktion genutztes Informationssystem. Dort gibt es auch die Möglichkeit, Feedback zu geben, ob eine Klassifizierung korrekt war oder nicht.

Der Stand nach vier Monaten: Der Weg ist das Ziel

Wo steht das gemeinsame Team von BR, MDR und ida nun nach vier Monaten in der Entwicklung? Es hat sich gezeigt, dass es sehr schwer ist, wirklich nützliche Anwendungsmöglichkeiten zu finden. Es lohnt sich aber in jedem Fall, sich gemeinsam auf den Weg zu machen, denn die Zusammenarbeit und das Voneinanderlernen zwischen BR, MDR und ida ist durch das Fellowship sehr erleichtert worden.

Die gefundenen technischen Lösungen und trainierten Modelle sollen dokumentiert und auch mit anderen Medienhäusern und Sendern als möglicher Standard geteilt und diskutiert werden – etwa in Bezug auf die technische Definition davon, mit welchem Modell die Erwähnungen der Redaktion in Userkommentaren am besten erkannt wurde.

Außerdem haben sich, angeregt durch die Begleitung der anderen Fellowship-Projekte der internationalen Teams, schnell Teams zusammengefunden, die ähnliche Interessen haben. Das führt im Fall der Zusammenarbeit der Teams von MDR, BR und ida zu einem vertieften Verständnis der Bedürfnisse und Fragen der jeweiligen Nutzerinnen und Nutzer der Angebote.

Damit soll das Projekt auch dem Auftrag des öffentlich-rechtlichen Rundfunks hinsichtlich der Informationsversorgung gerecht werden. Die Erkenntnisse aus dem Fellowship sollen genutzt werden, um besser mit den Nutzerinnen und Nutzern zu kommunizieren und um die Inhalte besser auf die Bedürfnisse des Publikums auszurichten.

TransparenzhinweisDas JournalismAI-Fellowship der London School of Economics and Political Science hat nach eigener Angabe das Ziel, Medienhäuser zu befähigen, künstliche Intelligenz verantwortungsvoll zu nutzen. Um das zu erreichen, ist das Fellowship Teil des Journalismus-Thinktank der London School of Economics and Political Science (Polis) und wird von der Google News Initiative finanziell unterstützt.

MDR (Martin Paul)

Kommentare

Laden ...
Alles anzeigen
Alles anzeigen