Nachrichten & Themen
Mediathek & TV
Audio & Radio
SachsenSachsen-AnhaltThüringenDeutschlandWeltLeben
Genau genommen ist Deepfake auch eine optische (oder akustische Täuschung), erzeugt durch eine Künstliche Intelligenz. Bildrechte: MDR/Ole Steffen

Digitale TäuschungDeepfake: Manipulierte, aber echt wirkende Medieninhalte

von MDR-Wirtschaftsredaktion

Stand: 13. Mai 2022, 08:56 Uhr

Software ermöglicht es selbst Laien, bei Videos und Sprachdateien Fälschungen zu erzeugen, die täuschend echt wirken. Wir haben mit Patrick Aichroth und Luca Cuccovillo, zwei Experten des Fraunhofer-Instituts für Digitale Medientechnologie (IDMT), über Risken und Chancen der Deepfake-Technologie gesprochen.

+++ Beispiele für Deepfakes +++

+++ Interview mit den Experten vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT) +++

Welche Gefahren birgt die Deepfake-Technologie?

Patrick Aichroth und Luca Cuccovillo: Die Technologie selbst ist neutral und kann für viele nützliche Dinge verwendet werden. Aber natürlich gibt es auch zahlreiche Missbrauchsmöglichkeiten für die Technologie, wenn keine Gegenmaßnahmen ergriffen werden. Einige Beispiele:

  • Deepfakes können erstellt werden, um sich z. B. als eine nahestehende Person auszugeben und so Geld für eine vermeintliche Hilfeleistung zu erbeuten oder vertrauliche Informationen einzuholen (Phishing und Identitätsdiebstahl).
  • Deepfakes werden für ein "ausgewähltes Opfer" erstellt – etwa aus Rache, zu Erpressungszwecken oder um eine missliebige Person zu diskreditieren. So könnte man auch einen Ehepartner mit einem Video erpressen, das ihn/sie beim vermeintlichen Fremdgehen zeigt; jemanden diskreditieren, indem man die Person rassistische oder sexistische oder politisch inakzeptable Sätze sagen lässt oder indem man vermeintliche Beweise für eine Straftat erstellt und verbreitet, die schon allein durch die gesäten Zweifel erheblichen Schaden anrichten können.
  • Deepfakes können zur Verbreitung von Desinformation genutzt werden, um durch fingierte Aussagen z. B. von politisch relevanten Akteuren, Markt- und Kursmanipulationen oder Panik zu verursachen, politische Propaganda zu verbreiten oder Gesellschaften und Institutionen zu destabilisieren.

Patrick Aichroth forscht am Fraunhofer-Institut für Digitale Medientechnologie (IDMT). Bildrechte: Fraunhofer IDMT

Bilder, Video – und vielleicht noch mehr – Audiodaten bieten einen sehr unmittelbaren Zugang zur menschlichen Sensorik und werden von Menschen instinktiv als "echt" eingestuft, wenn keine Auffälligkeiten wahrnehmbar sind, die die Echtheit in Frage stellen. Das Problem ist, dass gut ausgeführte Manipulationen und Fabrikationen immer weniger dieser wahrnehmbaren Auffälligkeiten hinterlassen. Aus diesem Grund werden technische Hilfsmittel zur Erkennung immer wichtiger, um "echtes" und "fingiertes" Material zu unterscheiden. Und ohne diese Unterscheidung kann überhaupt nicht mehr zwischen Fakt und Fiktion unterschieden werden.

Wie häufig nutzen Betrüger diese Masche? Gibt es eine Fallstatistik?

Patrick Aichroth und Luca Cuccovillo: Laut "Sentinel.AI" (Deepfakes 2020: The Tipping Point) stieg die Zahl der online veröffentlichten Deepfakes von 2019 bis Juni 2020, also innerhalb von sechs Monaten deutlich von 145.000 auf über 100.000.000 und es gibt eigentlich keinen Grund, einen Rückgang dieses Trends zu erwarten. Allerdings dienen die meisten Deepfakes laut "Sentinel.AI" Unterhaltungszwecken und auf wirklich gefährliche und kriminelle Anwendungen entfällt sicher nur ein Bruchteil – wie viel das genau sind, dazu gibt es unseres Wissens noch keine belastbaren Studien.

Auch Luca Cuccovillo arbeitet am Fraunhofer-Institut für Digitale Medientechnologie (IDMT). Bildrechte: Fraunhofer IDMT

Wer ist besonders gefährdet?

Patrick Aichroth und Luca Cuccovillo: Was die bisherigen, öffentlich bekannten Fälle von Parodie aber auch Desinformation betrifft, sind v.a. bekannte Persönlichkeiten aus Unterhaltung und Politik häufig Ziel der Erstellung von Deepfakes. Bei Deepfakes mit pornografischem Inhalt, wo v.a. Face Swapping verwendet wird, sind deutlich mehr Frauen als Männer betroffen.

Gefahren von Identitätsdiebstahl, Betrug und Verleumdung können hier aber ausnahmslos jede(n) betreffen. Daher ist es besonders wichtig, dass vor allem für Ermittlungen weiterhin leistungsfähige Prüfwerkzeuge zur Verfügung stehen – aber auch, dass die kritische und differenzierte Prüfung von Informationen gesellschaftlich verankert und praktiziert werden, und schnelle Vorverurteilungen vermeidet: Desinformationen und Fälschungen nutzen u.a. die Tendenz von Menschen aus, gerne und ohne kritische Prüfung Dinge zu glauben, die gut ins eigene Weltbild passen, besonders bei emotional aufgeladenen Themen. Die Beförderung einer unaufgeregten Diskussionskultur, unter anderem durch eine andere Gestaltung von Socialmedia-Plattformen, könnte dem missbräuchlichen Einsatz von Deepfakes daher viel Nährboden entziehen.

Desinformationen und Fälschungen nutzen u.a. die Tendenz von Menschen aus, gerne und ohne kritische Prüfung Dinge zu glauben, die gut ins eigene Weltbild passen, besonders bei emotional aufgeladenen Themen.

Kann diese Technologie Institutionen und Unternehmen oder auch Privatleuten helfen, bzw. zugänglich gemacht werden?

Patrick Aichroth und Luca Cuccovillo: Es gibt viele nützliche Einsatzmöglichkeiten für diese Technologie:

  • hochwertige Synthese bei Sprachschädigungen (aufgrund von Krankheit oder Unfällen),
  • günstige und hochwertige Erzeugung von Ansagetexten (ÖPNV/Bahn, Navi, etc.),
  • günstige und hochwertige Sprachausgabe von Texten (im Fahrzeug, für das Hören unterwegs, etc.),
  • Synchronisation in Filmen, Dokumentationen und Hörbüchern in verschiedenen Sprachen, wobei die Eigenschaften der Originalstimme erhalten bleiben,
  • "Wiederbeleben" verstorbener Personen, wie zum Beispiel im Dali-Museum (mit Zustimmung der Angehörigen).

Gibt es neuere Fälle des Betrugs, wo diese Technologie zum Einsatz kam?

Patrick Aichroth und Luca Cuccovillo: Die bekannten Fälschungen von Selensky und Putin im Zusammenhang mit dem Krieg in der Ukraine sind zwar keine Betrügereien im engeren Sinn, aber Beispiele für den Missbrauch moderner Synthesetechnologien für Desinformationszwecke, die die Öffentlichkeit erreicht haben.

Spielt die Technik eventuell im andauernden Ukraine-Russland-Konflikt eine Rolle?

Patrick Aichroth und Luca Cuccovillo: Zum Beispiel in Form der bereits erwähnten Fälschungen von Selensky und Putin – an diesen Fällen lässt sich auch ablesen, welches Missbrauchspotenzial existiert: Obwohl die Fälschungen von schlechter Qualität waren und schnell entlarvt wurden, sah sich Szelensky offenbar gezwungen, eine öffentliche Gegenerklärung abzugeben und zu verbreiten. Die Frage ist: Was wäre passiert, wenn er das nicht getan hätte? Und was wäre passiert, wenn die Fälschungen so gut gewesen wären, dass sie nicht ohne Weiteres erkannt worden wären, die Prüfung deutlich länger gedauert hätte. Das gilt besonders, wenn die allgemeine Meinung stark polarisiert ist.

Worin besteht der technologische Unterschied zwischen Video- und Audio-Deepfake?

Patrick Aichroth und Luca Cuccovillo: Aus technologischer Sicht gibt es zunächst große Ähnlichkeiten: Beide Verfahren basieren auf dem Einsatz von KI bzw. Deep-Learning und werden zunehmend auch gemeinsam weiterentwickelt. Der Unterschied liegt eher im Anwendungsfokus und den damit verbundenen Herausforderungen. Bei Video-Deepfakes geht es bisher vorwiegend um die Übertragung von Gesichtern/Körpern in Ausdrücke/Bewegungen, die in einem Zielvideo vorhanden sind. Bei Audio-Deepfakes stehen bisher vor allem sogenannte Text2Speech-Anwendungen im Vordergrund, es gibt aber auch sogenannte Voice-Conversion, bei der die Übertragung von Stimmcharakteristika im Vordergrund steht.

Sie forschen ja an einer Detection-Software. Wie funktioniert diese ungefähr?

Patrick Aichroth und Luca Cuccovillo: Unser Fokus liegt auf der Entwicklung von Erkennungsverfahren für Audio-Manipulationen und Sprachfälschungen. Es gibt dabei mehrere Ansätze, die gleichzeitig verfolgt werden.

  1. Die Suche nach spezifischen Spuren, die der Syntheseprozess im Material hinterlässt und die z. B. durch Signalanalyse/maschinelles Lernen detektierbar sind.
  2. Die Ermittlung von fehlenden natürlichen Aufnahmespuren: Natürliche Aufnahmen hinterlassen immer charakteristische Spuren im Material – sind diese nicht in bestimmten Kombinationen vorhanden, ist das ein Hinweis auf einen unnatürlichen Ursprung.
  3. Prüfung auf Unstimmigkeiten zwischen den erkannten Aufnahmespuren und "Behauptungen" über den Inhalt (etwa über Aufnahmeort, -zeit, -gerät oder -prozess).

Dabei kommen eine ganze Reihe von sehr unterschiedlichen Verfahren zum Einsatz – umgekehrt gibt es auch eine Vielzahl von möglichen Manipulationen und Syntheseverfahren. Aktuell versuchen wir, im Rahmen eines vom BMBF geförderten Projektes (SpeechTrust+) neue Erkennungsverfahren für Sprachsynthese zu entwickeln, die möglichst robust sind und viele Syntheseverfahren erkennen können. Stand heute gibt es solche Erkenner noch nicht. Gleichzeitig versuchen wir aber auch, eng mit anderen Unternehmen und Forschungseinrichtungen zu kooperieren, die sich z. B. mit Bild-, Video- oder Textanalyse befassen, damit ein möglichst umfangreicher Werkzeugkasten zu Erkennung von Manipulationen und Fälschungen entsteht.

Ausblick: Welche Entwicklungen sehen Sie in der Zukunft der Deepfake- als auch Ihrer Erkennungs-Technologie?

Patrick Aichroth und Luca Cuccovillo: Die entsprechenden Deepfakes-Technologien machen fortlaufend Fortschritte. Es lassen sich immer überzeugendere Inhalte synthetisieren, die mit menschlicher Wahrnehmung früher oder später nicht mehr von natürlichen Inhalten zu unterscheiden sind. Außerdem sollte nicht unterschätzt werden, dass Deepfakes mit einfachen Bearbeitungen/Manipulationen (Schnitt etc.) kombiniert werden können, die bei guter Ausführung ebenfalls schwer (oder gar nicht) wahrnehmbar sind. Und viele der dafür verwendbaren Technologien werden frei zugänglich sein. Wenn also keine Vorkehrungen getroffen werden, dann dürften die erwähnten Gefahren im Zusammenhang mit Deepfakes immer mehr zur Realität werden – mit gravierenden Folgen. Aber es gibt wirksame Gegenmaßnahmen. Dazu gehört die Entwicklung von Erkennern, für die inzwischen (endlich) auch Förderprogramme eingerichtet wurden, die hoffentlich in absehbarer Zeit zu einer umfangreichen Palette wirksamer Erkenner führen werden. Das wird nicht einfach sein, es gibt dabei viele technologische Herausforderungen, aber es gibt inzwischen einige Akteure, die sich intensiv damit beschäftigen.

Mindestens ebenso wichtig wie die Entwicklung von Erkennertechnologien. Hier wird aber die Frage sein, wie Journalisten/Medienhäuser und die Gesellschaft insgesamt mit den Herausforderungen umgehen. Denn erstens müssen auch die Ergebnisse der besten Erkennertechnologien am Ende von Menschen interpretiert und in den entsprechenden Kontext eingeordnet werden und zweitens muss ein hohes Maß an Vertrauen in die entsprechenden Prüfprozesse vorhanden sein. Dieses Vertrauen kann nicht durch den Verweis auf Autoritäten/Experten erreicht werden, sondern muss in Form eines Prüfprozesses "verdient" werden, der mit fundierten Argumenten auch selbst jederzeit kritisch hinterfragt werden darf. Dieser Prozess muss auf nachvollziehbaren und reproduzierbaren inhaltlichen Analysen sowie auf der Falsifizierung von möglichst umfangreichen Informationen über die betreffenden Aufnahmen (wie zum Beispiel Angaben zu Aufnahmeort, -zeit, gerät etc.) aufbauen. Denn die Echtheit kann nie direkt, sondern nur über (viele) erfolglose Falsifizierungsversuche indirekt bestätigt werden.

Die Fähigkeit zum kritischen Denken und Prüfen von Informationen bei gleichzeitiger Kenntnis der grundsätzlichen Gefahren und technischen Möglichkeiten wird nicht nur bei Medienschaffenden und Medienhäusern erforderlich sein, und sie lässt sich nicht an Plattformen oder andere Akteure "wegdelegieren". Diese Fähigkeit wird für uns alle immer wichtiger werden, und wenn es uns gelingt sie uns anzueignen, dann werden wir mit den Problemen durchaus umgehen können.

Zum Forschungsschwerpunkt von Patrick Aichroth und Luca CuccovilloDie Gruppe "Media Distribution and Security" (MDS) des Fraunhofer IDMT betreibt angewandte Forschung im Kontext von Medienforensik, Mediensicherheit und technischem Datenschutz sowie vertrauenswürdiger KI und entwickelt Technologien, die z. B. für Desinformationserkennung, Herkunftsanalyse und datenschutzfreundliche Empfehlungsdienste in verschiedenen Anwendungsbereichen eingesetzt werden. In Kooperation mit anderen Forschungsgruppen des Instituts sorgt sie außerdem dafür, dass Technologien zur Analyse von Industrie- und Umweltgeräuschen und zur automatischen Annotation von Mediendaten nicht nur leistungsfähig, sondern auch sicher und vertrauenswürdig sind.

MDR-Wirtschaftsredaktion

Dieses Thema im Programm:MDR KULTUR - Das Radio | 09. Mai 2022 | 15:30 Uhr