Digitale Sprachassistenten Siri, Alexa und Co. hören viel zu oft mit

07. Juli 2020, 15:30 Uhr

Digitale Sprachassistenten haben ganz schön viele Probleme: Sie hören nicht gut, verletzen dadurch die Privatsphäre und sind obendrein auch noch sexistisch. Aber es gibt Hoffnung.

von Florian Zinner

Ein Tablet-Computer (iPad) liegt auf einer weißen Tastatur. Sprachassistent Siri ist aktiv. Dialog: "Hey Siri" – "Ich bin ganz Ohr …" – "Das finde ich nicht gut" – "Schlecht … was?". Nahaufnahme mit Spieglungen im Display.

Sprachassistenten sind auch mal dann ganz Ohr, wenn sie gar nicht gemeint sind. Bildrechte: MDR

Haben Sie ein iPhone oder iPad zur Hand? Dann rufen Sie jetzt mal "Daiquiri", und zwar bitte im gleichen Tonfall, als würden Sie "Hey Siri" rufen. Sie zählen zu den Android-Nutzenden? Dann mal den zeitgenössische Ausspruch "Ok, cool" sagen, im gleichen Tonfall wie "Ok, Google".

Und? Ist Ihr Gerät angesprungen, um die elektronischen Lauscherchen für weitere Befehle offen zu halten? Na ja, klappt nicht bei jeder und jedem. Vielleicht hat ihr Sprachassistent aber inzwischen auch dazugelernt. Ein Forschungsteam an der Ruhr-Universität in Bochum (RUB) hat jetzt zahlreiche Sprachassistenten unter die Lupe genommen und eine Liste von mehr als tausend Begriffen zusammengestellt, die die elektronischen Butler fälschlicherweise aktivieren können.

Fast schon witzig – Alexa reagiert im Experiment auf den Satz "We like some privacy":

Ich bin damit einverstanden, dass mir bis auf Widerruf Inhalte von Youtube angezeigt werden.

Die funktionieren nämlich so: Musste man in der Anfanfszeit von Siri (Apple-Betriebssysteme), Alexa (Amazon Echo), Google Assistant (Android) und Cortana (Windows) noch aufs Knöpchen drücken, um mehr oder weniger hilfreiche Unterstützung zu erhalten, reicht seit einigen Jahren ein sogenanntes Trigger-Wort. Praktisch, denn um Personen – Familienmitglieder etwa – zur Mithilfe aufzufordern, muss man sie ja auch nicht erst drücken, sondern einfach rufen. Das funktioniert natürlich nur, wenn die Geräte permanent zuhören. Auch das kann man sich wie bei einem Familienmitglied vorstellen, das sich irgendwo in der Wohnung befindet: Es wird ein Grundrauschen vom Gesagten wahrnehmen, aber erst aktiv zuhören, wenn der eigene Name gerufen wird.

Private Unterhaltungen führen zur Aktivierung

Auch bei den digitalen Assistenten ist der Name das Trigger-Wort. Ansonsten Gesagtes ist hingegen uninteressant. Allerdings passiert es ja selbst den liebsten Familienmenschen, dass sie denken, man hätte ihren Namen verlauten lassen, dabei hat man etwas völlig anderes gesagt. Und so kommt es, dass Sie eigentlich nur erzählen wollten, was "Am Sonntag" so los war, Alexa aber denkt, sie wäre gemeint, obwohl sich "Am Sonntag" und "Alexa" nicht mal reimen. Das ist an sich keine Fehlfunktion, sondern ein bewusst programmierter Spielraum:

Die Geräte sind mit Absicht etwas liberal programmiert, weil sie ihre Menschen verstehen können sollen. Sie springen also eher einmal zu viel als zu wenig an.

Prof. Dr. Dorothea Kolossa Horst-Görtz-Institut für IT-Sicherheit, RUB

Ohnehin haben die Geräte nicht genug Rechenpower, um zu prüfen, ob sie wirklich gemeint waren – geschweige denn die folgenden Befehle zu interpretieren. Es ist effizienter und schneller, Gesagtes an ein Rechenzentrum zu schicken, dort analysieren und verarbeiten zu lassen und dann einen Befehl zurück aufs Handy zu schicken. So landen natürlich auch kurze Gesprächsschnipsel in der Cloud, bei denen sich herausstellt, dass das Aktivierungswort gar nicht gesagt wurde. Diese Daten werden von den Herstellern systematisch analysiert, um die Systeme weiter zu verbessern.

Verschiedenhohe, Säulen- oder Puck-förmige Objekte im Halbdunkeln, verkabelt, mit Lämpchen, die in verschiedenen Farben leuchten.

Der experimentelle Aufabu für die Analyse der Sprachassistenten. Bildrechte: RUB/Lea Schönherr et al

Gutes Produkt oder guter Datenschutz?

Doch da ist der Haken: Nicht Smartphone und Tablet belauschen ihre Mitmenschen, sondern echte Menschen, die Millionen von (mehr oder weniger) anonymen Datenschnipseln analysieren, um die Systeme zu verbessern. Das nur für eine Vertrauensperson bestimmte Satzfragment "Am Sonntag hatte ich ein Date mit …" landet dann eben auch auf dem Server. Klar ärgern sich viele Nutzende darüber. Aber genauso viele ärgern sich wahrscheinlich, wenn ihr Sprachassistent auf dem Tausend-Euro-Smartphone nicht richtig funktioniert. Ein schwieriger Spagat also. Mittlerweile, so die offizielle Angabe, ist für das Mithören bei Apples Siri und Amazons Alexa eine Zustimmung durch Nutzende erforderlich. Google hält es hingegen offen, Sprachfetzten evtl. weiterhin zu analysieren.

Frauen werden schlechter verstanden

Die Sprachassistenten haben aber noch ein anderes Problem: Frauen werden schlechter verstanden als Männer. Das hat zumindest das Meinungsforschungsportal YouGov im vergangenen Jahr herausgefunden. Eine Erklärung könnte sein, dass die Softwares – denn Sprachassistenten sind immer noch ein Computerprogramm – nicht ausreichend mit weiblichen Stimmen trainiert werden. Sprachassistenten werden nämlich mehrheitlich von Männern entwickelt, wie das Magazin Wired 2018 herausfand. Eine andere Erklärung ist, dass Frauen generell leiser sprechen und Umgebungsgeräusche schwerer herauszufiltern sind. Vielleicht hat die gesellschaftliche Prägung aber auch einfach dafür gesorgt, dass sich viele Frauen nicht trauen, in einem eindringlichen Trigger-Ton Befehle zu erteilen?

Sexistische Assistenzen?

Eine Ironie der Software (und vielleicht ein Resultat männlicher Entwicklerteams), wenn man bedenkt, dass Alexa, Siri und Co. auch Teil einer von der Unesco angestoßenen Sexismus-Debatte sind. Bei diesem Thema geht es nicht nur um digitales Augenklimpern bei sexueller Beleidigung durch Nutzende, sondern auch um die Stimmen selbst: Bei ihrer Einführung waren die Systeme alle weiblich – bereit zu dienen und Hilfestellung zu geben. Das könnte gerade bei Kindern für ein falsches gesellschaftliches Bild sorgen. Zwar kann die Stimme mittlerweile umgestellt werden, ist in ihrer Grundeinstellung aber nach wie vor weiblich (außer bei Siri auf Arabisch, Französisch, Niederländisch und im Britischen Englisch). Dass weder männliche noch weibliche Stimmen notwendig sind, um eine Sprachassistenz gut klingen zu lassen, zeigt ein Linguistik-Team von der Uni Kopenhagen mit der geschlechtsneutralen Stimme von Q:

Ich bin damit einverstanden, dass mir bis auf Widerruf Inhalte von Youtube angezeigt werden.

Für alles gibt es natürlich eine einfache Lösung: Wetter und Fußballergebnisse künftig wieder selbst recherchieren und die Assistenten stummschalten. Oder zumindest die Reaktion auf Aktivierungswörter deaktivieren. Geht ganz einfach in den Einstellungen. Dann steht auch einem ausführlichen Bericht unter vier Ohren nichts mehr im Wege, was letzten Sonntag eigentlich passiert ist.