MDR INFO | Digital | 08.11.2011 : Sprachsteuerung – heute und morgen
von Marcus Engert
Smartphones, Autos und PCs lassen sich schon heute immer stärker mit der Stimme steuern. Und Apples neues iPhone macht mit dem System SIRI Schlagzeilen. Es soll über die derzeit schon vorhandenen Sprachsteuerungen weit hinausgehen. Mit dem System soll man dem ganz normalen Sprechen mit der Maschine einen großen Schritt näher kommen. So soll es möglich sein, Fragen an das iPhone zu stellen, und mit SIRI zu interagieren. Was können die Sprachsteuerungen heute schon, wo geht die Reise hin? Marcus Engert hat sich umgehört.
SIRI heißt das neue Spracherkennungssystem für das iPhone, und man merkt deutlich, in welche Richtung das System gehen soll. Anders als viele bisherige Sprachsteuerungen soll der Nutzer sich mit SIRI unterhalten können – und zwar ganz natürlich. Auch soll SIRI Zusammenhänge verstehen: Wenn man fragt "Gibt es einen guten Italiener in Laufnähe?" soll, falls die Antwort "Nein" lautet, die Nachfrage "Und was ist mit einem Mexikaner?" möglich sein. SIRI soll aus dem Kontext heraus diese neue Anfrage nach einem Restaurant interpretieren können.
Auch Googles System "Voice Actions" bietet schon länger eine umfassende Sprachsteuerung –hören kann man es auch auf einem Android-Handy. Nachrichten schreiben, das Wetter abfragen, den Wecker stellen – solche einzelnen Funktionen sind schon lange per Sprachbedienung machbar. Programme wie "Dragon Dictation" können auf den heimischen Rechner genutzt werden. Damit kann man dem Computer sagen, was er tun soll, egal ob "öffne Word", "setze die Schriftgröße auf zehn" oder "minimiere alle Fenster" – die Programme erledigen das.
Auch Autos haben längst Sprachsteuerungen integriert, genau so, wie es Navigationsgeräte oder Handys schon seit Jahren bieten. Google Voice Actions versteht bereits komplexere Anweisungen. Jedoch sind dies alles keine Systeme, die aus dem Kontext heraus reagieren können. Das kann SIRI eindeutig besser, als jedes andere System bisher. Und das zeigt den Paradigmenwechsel in der Sprachsteuerung. Bisher musste der Nutzer fest definierte Vokabeln auswendig lernen; anders gesagt, das Gerät gab die Syntax vor. Das ist ein Problem, sagt Karin Harbusch, Professorin für Computerlinguistik und künstliche Intelligenz der Uni Koblenz.
Nun soll es aber, wie im Falle von SIRI, möglich werden, frank und frei zu sprechen. Das klingt einfacher, als es ist, denn eine ganze Generation hat es ja nicht gelernt, mit Maschinen zu sprechen. Gerät man zum Beispiel an eine Hotline, spricht man gekünstelt, besonders deutlich und abgehackt.
Dabei wäre es viel spannender, wenn wir uns ganz natürlich geben könnten. Tim Polzehl arbeitet genau daran. Die Maschine soll an der Art, wie wir sprechen, unsere Laune, Alter oder Persönlichkeit erkennen. So könnte man zum Beispiel im Callcenter bestimmte Menschen zielgerichteter an die Mitarbeiter durchstellen. Vor allem aber wird die Anwendung sein, erläutert Tim Polzehl, dass man das Handy oder den Computer, beziehungsweise den Fernseher anspricht, und diese Geräte sollen einen möglichst gut erkennen.
Doch bis dahin ist es noch ein sehr weiter Weg. Etliche Bereiche unserer Sprache verstehen ja schon bestimmte Menschen oft nicht, Ironie und Humor zum Beispiel. Davon ist auch Apples SIRI noch weit entfernt.
