Alexa, was ist die Zukunft der Sprachassistenten?

Amazons „smarter Lautsprecher“ Echo mit seinem Sprachassistenten Alexa hat sich vom Kuriosum zum Hype gewandelt. Auf der Fachmesse CES 2017 konnte man Alexa kaum entkommen. Zugleich sind bereits viele großen Namen der Branche im gleichen Feld aktiv: Apple mit Siri, Samsung mit Bixby, Microsoft mit Cortana und Google mit seinem namenlosen Assistant. Facebooks Mark Zuckerberg programmierte sich seinen „Jarvis“ gar als Nebenbeiprojekt. Aber was ist dran am Thema? Haben diese Sprachassistenten das Zeug dazu, Online-Marketing und Websuche grundlegend zu verändern, wie manche Experten behaupten?

Lenovos „Smart Assistant“ ist ein Klon von Amazons Echo – inklusive Sprachassistent Alexa. (Foto: Screencapture aus dem Video „Lenovo Smart Assistant & Smart Storage“ von Lenovo auf YouTube)

Wir haben diesen Artikel im Februar 2017 veröffentlicht und zuletzt im März 2017 aktualisiert.

Alexa und Echo: Amazons „iPod-Moment“

Rückblickend hatte Amazon mit dem ersten Echo vielleicht seinen „iPod-Moment“: Als Steve Jobs jenen MP3-Player 2001 vorstellte, war das Rätselraten groß. Warum brachte Apple, das gerade erst mit Müh und Not der Pleite entkommen war, ausgerechnet ein solches Gerät heraus? Anfangs war der iPod auch kein großer Hit – aber er wurde letztlich zu einem und veränderte gemeinsam mit dem iTunes Music Store die Musikindustrie.

Ebenso war die Berichterstattung über Amazons Echo zunächst sehr zurückhaltend. Amazon hatte sich gerade erst mit seinem Smartphone blamiert. Der Kindle hatte einiges an Dynamik eingebüßt und die neuen Tablets wurden allerorten auch nicht gerade als durchschlagender Hit angesehen. Warum, in aller Welt, brachte Amazon nun im Jahre 2014 einen Zylinder heraus, der praktisch ein smarter Lautsprecher mit Mikrofon war? Gab es nicht schon genug Wege, auf Amazon einzukaufen? Und wer wollte, bitteschön, so ein Gerät zu Hause haben, das praktisch nur eine einzige Funktion hatte?

download-iconDiesen und andere Artikel aus UPLOAD Magazin 43 herunterladen: Jetzt die E-Book-Version der Ausgabe kaufen (4,99 Euro, kostenlos für Abonnenten)

Spulen wir einige Jahre vorwärts in die Gegenwart und Amazon hat den Echo mit dem Sprachassistenten Alexa in vielerlei Hinsicht schlau weiterentwickelt. Zum einen gibt es inzwischen weitere Versionen des Echo: den kompakten „Dot“ und den mobilen „Tap“. Zum anderen hat es sich zur Plattform entwickelt: Entwickler können Alexa neue Fähigkeiten beibringen („Skills“ genannt) und Hersteller können den Assistenten überall integrieren – sogar in Echo-Kopien. Auf der CES 2017 in Las Vegas gab es vor Alexa kaum ein Entkommen. Etliche Geräte bis hin zu Autos waren „Alexa ready“.

Warum Sprachassistenten so ein Hype sind

In diesem Video habe ich mir das Thema übrigens ebenfalls vorgenommen:

Aber woher kommt nun eigentlich diese Begeisterung für Sprachassistenten und „Voice Search“? Dazu muss man sich nur einmal anschauen, wie sich die Nutzung von Computern über die Jahrzehnte gewandelt hat. Dort gibt es nämlich eine eindeutige Tendenz: Die Benutzeroberflächen nähern sich immer weiter dem an, wie Menschen miteinander und mit ihrer Umwelt interagieren. In den Anfangsjahren war die Bedienung von Computern so abstrakt, das nur Spezialisten nach entsprechender Schulung mit ihnen umgehen konnten. Display und Tastatur machten das schon ein wenig einfacher, sofern man sich mit den notwendigen Kommandos vertraut machte. Die grafische Benutzeroberfläche wiederum brauchte zwar auch noch Eingewöhnung, versuchte aber viele Vorgänge bildhaft zu machen – zudem kann man hier auch einfach mal herumprobieren. Mit Touchscreens reagierte der Computer in der Hand auf bereits bekannte Gesten wie Wischen und Tippen.

Natürliche Sprache wäre nun in vielen Situation eine so einfache wie effiziente Form der Bedienung. Die Idealvorstellung ist dabei, dass der digitale Assistent uns genau so gut versteht, wie ein Mensch oder sogar besser. Zugleich weiß der elektronische Helfer alles, was das Internet weiß. Und er kennt uns so gut, dass er sich fehlende Informationen selbst erschließen kann. Eventuell kann er uns sogar Antworten liefern, bevor wir überhaupt gefragt haben.

Würde es tatsächlich so funktionieren, könnte das einen signifikanten Wandel auslösen. Viele Situationen, in denen wir bislang Google oder eine App bemüht hätten, würden nun vom digitalen Assistenten abgedeckt.

Deshalb sehen manche Experten voraus, dass das Online-Marketing und hier nicht zuletzt die Suchmaschinen-Optimierung auf diesen Trend wird reagieren müssen. Auch in unserer Befragung zu den SEO-Trends des Jahres wurde „Voice Search“ mehrfach genannt.

Warum zugleich Skepsis angebracht ist

Dabei sollte man aber diese theoretischen Überlegungen und die Begeisterung mancher Experten für die Potentiale nicht mit dem verwechseln, was wir heute haben. Kein Assistent versteht jeden Nutzer jederzeit. Kein Assistent versteht jede Fragestellung jederzeit richtig. Nicht in jeder Situation kann überhaupt eine einzige, allgemeingültige Antwort geliefert werden – und ist das nicht der Fall, wird es ohne Display dann doch schnell komplex für den Nutzer. Hier haben alle Firmen noch viel Arbeit vor sich.

Wir haben allerdings einen Punkt erreicht, an dem ein Produkt wie der Echo mit dem Assistenten Alexa bereits eine recht breite Käuferschicht erreichen kann. War der Echo zunächst nur Liebling mancher Tech-Schreiberlinge und anderer Gadgetfans, findet er nun auch Einzug in andere, „normale“ Haushalte.

Dabei ist aus meiner Sicht noch immer offen, wie groß die Akzeptanz für ein solches Gerät letztlich sein wird. Mal ganz abgesehen von den Datenschutzfragen, die man sich hierzulande mehr stellt als im Silicon Valley. Schließlich muss so ein Gadget wie der Echo zwangsläufig zuhören und verarbeitet das Gehörte oftmals in der nebulösen „Cloud“. Aktuell wehrt sich Amazon gerade dagegen, solche Aufzeichnungen herauszugeben.

Insofern sind Alexa und Co aus meiner Sicht gerade auf dem „Gipfel der überzogenen Erwartungen“ von Gartners berühmten Hype-Cycle angekommen oder nähern sich ihm mit Karacho. Nächster Halt: das „Tal der Enttäuschungen“. Ist das durchschritten, werden Alexa, Siri, Cortana und andere den Einzug in unseren Alltag finden. Ihre Schwächen werden die Entwickler mit der Zeit ausbügeln können. Es werden neue Anwendungsfelder auftauchen, an die wir heute noch gar nicht denken. Und eher wir uns versehen, sprechen wir eben doch mit unseren Geräten, auch wenn uns das heute noch seltsam und ungewohnt vorkommt.

Zugleich bin ich aber derzeit sehr skeptisch, dass Sprachbefehle andere Formen der Bedienung zum Beispiel über Bildschirme komplett ersetzen werden. Eher sollte man sie als Ergänzung ansehen.

Beispiele für Sprachassistenten

Praktisch alle großen Namen der Branche haben inzwischen ihren eigenen Assistenten. Das Thema ist einfach zu interessant und das Potenzial zu verführerisch. Hier ein Blick auf den aktuellen Stand der Dinge:

Amazon Alexa

Mike George, Vice President für Echo, Alexa und den Appstore bei Amazon. Er zeigt hier einen „Echo Tap“ bei der TechCrunch Disrupt NY 2016. (Foto: Noam Galai/Getty Images for TechCrunch. Lizenz: CC BY 2.0)

Alexa ist der Sprachassistent, der Amazon Echo ist die hauseigene Hardware dazu. 2014 hat Amazon beides erstmals der Öffentlichkeit gezeigt. Der Echo ist dabei ein mit dem Internet verbundener Lautsprecher inklusive mehrerer Mikrofone. Per Sprachbefehl kann er beispielsweise Musik spielen, die Wettervorhersage bekannt geben oder natürlich auch bei Amazon bestellen. Das System ist über „Skills“ („Fähigkeiten“) erweiterbar: Drittanbieter können so Alexa weitere Fähigkeiten beibringen. Auf diese Weise kann der Echo auch zum zentralen Hub fürs Smart Home werden. Die Zahl dieser Skills hat sich zwischen Juni und November 2016 erheblich gesteigert: von 1.000 auf 5.000.

Alexa ist aber nicht im Echo gefangen: Über Amazons „Alexa Voice Service“ können andere Hersteller den Assistenten integrieren – kostenlos. Das hat zuletzt beispielsweise dazu geführt, dass Huaweis nächstes Top-Android-Smartphone in den USA mit Alexa vorinstalliert auf den Markt kommt. Das dürfte Google wenig gefallen, allerdings stellen sie ihren Konkurrenten „Google Assistent“ nur nach und nach zur Verfügung (siehe unten). Lenovo wiederum brachte mit dem „Smart Assistant“ gar einen waschechten Echo-Klon heraus, der 50 US-Dollar weniger kostet als das Vorbild.

Amazon kommt es ganz offensichtlich darauf an, sich so schnell wie möglich einen Platz in diesem Markt zu sichern. Denn nur so können sie selbst bestimmen, wie ihre E-Commerce-Angebote integriert werden.

Apple Siri

Inzwischen ist Siri auch auf dem Mac angekommen. (Foto: Apple)

Bereits 2011 hat Apple seinen Sprachassistenten Siri vorgestellt. Damals war er noch ein exklusives Feature des iPhone 4S. Siri wurde aber nicht von Apple selbst entwickelt, sondern aufgekauft. Geplante Versionen von Siri für Android und BlackBerry wurden im Zuge dessen eingestampft. Inzwischen ist Siri dafür auf allen Plattformen des kalifornischen Unternehmens vertreten – von der Armbanduhr bis zum Desktop-Mac. Ähnlich wie bei Alexa, können Dritthersteller inzwischen ihre Apps mit Siri verknüpfen. Allerdings ist das derzeit nur sehr eingeschränkt in einigen bestimmten Kategorien von Apps möglich. Als Smart-Home-Hub eignet sich Siri außerdem nur beschränkt, weil sich Apples „HomeKit“ weiterhin nur schleppend verbreitet.

Siri hatte 2011 für viel Begeisterung gesorgt, wurde aber seitdem zumindest nach außen hin nicht wesentlich weiterentwickelt. Einen Siri-Lautsprecher brauchen wir außerdem nicht so bald zu erwarten, denn Apples Marketingchef Phil Schiller hält nach eigenen Worten nicht so viel davon. Der beste Assistent sei noch immer der, den man immer dabei habe, ließ er in einem Interview mit Backchannel wissen. Damit meint er natürlich Siri auf dem iPhone und wahrscheinlich auch die neuen drahtlosen Kopfhörer „AirPods“ – die setzen sogar für simple Funktionen wie das Ändern der Lautstärke auf Siri.

Wir werden erleben, ob Apple seine Meinung ändert und doch noch seinen eigenen Echo herausbringt. Es wäre nicht das erste Mal, dass das Unternehmen einen Kurswechsel vornimmt. Vielleicht aber behält Apple auch Recht und „Assistenten in der Dose“ wie Echo & Co. sind nur ein vorübergehender Hype.

Facebook Jarvis

Jarvis ist (noch) kein fertiges Produkt von Facebook. Vielmehr ist es eine Fingerübung von Facebook-Gründer und -CEO Mark Zuckerberg. Was man halt so in seiner Freizeit macht, wenn man das größte Social Network der Welt erschaffen hat. Ihm ging es nach eigenen Worten darum, etwas über den Stand der Dinge bei der Künstlichen Intelligenz zu lernen. Über Jarvis kann er sein Smart Home kontrollieren und der Assistent soll außerdem mit der Zeit etwas über die Gewohnheiten und Vorlieben des Benutzers lernen. Anstatt wie bei Alexa neue „Skills“ manuell zu installieren, soll Jarvis beispielsweise selbst herausfinden, wie er bislang unbekannte Aufgaben erledigt. Diese Kombination von Sprachassistent und selbstlernender K.I. finde ich persönlich sehr spannend. Denn im Grunde wollen die Nutzer keine Funktionen installieren, sondern sinnvolle und hilfreiche Antworten auf jede mögliche Frage bekommen.

Offiziell ist Jarvis derzeit nur ein privates Projekt von Mark Zuckerberg. Er denkt aber darüber nach, den Quellcode frei zur Verfügung zu stellen (alias „Open Source“). Derzeit sei das dafür aber alles zu direkt mit seinem Zuhause und den dort vorhandenen Geräten verbunden. Alternativ könnte Jarvis auch die Basis für ein neues Produkt sein.

Google Assistant

Sprachsuche ist schon länger ein Thema bei Google und seit 2012 hatte es im digitalen Assistenten Google Now seine Heimat gefunden. Mit dem Google Assistant soll es nun auf die nächste Stufe und auf Augenhöhe mit der Konkurrenz gebracht werden. Dabei gibt es auch eine Entsprechung zu Amazons Echo, hier Google Home genannt.

Zunächst konnten nur wenige Nutzer den neuen Assistenten ausprobieren: Er war neben dem Home u.a. den „Pixel“-Smartphones von Google selbst vorbehalten. Im Februar 2017 hat Google dann angekündigt, es auf alle Android-Smartphones ab Version 6.0 („Marshmallow“) zu bringen. Wer auf den Sprach-Part verzichten kann, findet eine Version des Assistenten derzeit in Googles Chat-App Allo.

Microsoft Cortana

Microsoft hat seinen Assistenten Cortana erstmals 2014 gezeigt. Benannt wurde er nach einer künstlichen Intelligenz in der „Halo“-Spielserie. Cortana kam zum ersten Mal in Windows 10 zum Einsatz und ist inzwischen auch für Android- und iOS-Geräte verfügbar sowie auf der Xbox One. Die Funktionalität ist mit dem vergleichbar, was bei der Konkurrenz schon beschrieben wurde. Dabei ist Cortana eng mit Microsofts Browser Edge sowie seiner Suchmaschine Bing verknüpft.

Cortana ist neben Chatbots ein Teil dessen, was Microsoft-CEO Satya Nadella unter dem Begriff „Konversation als Plattform“ zusammengefasst hat. Microsoft wolle „die Kraft der menschlichen Sprache“ nehmen und sie an vielen Stellen anwenden. Das hatte er auf der Build-Konferenz 2016 in San Francisco in seiner Keynote erklärt. Er sieht Sprache als neue Form der Benutzeroberfläche. „Bots sind die neuen Apps, digitale Assistenten sind Meta-Apps“, sagte er.

Samsung Bixby (Viv)

Viv wurde von Samsung gekauft, so wie Apple einst Siri gekauft hat. Damit nicht genug der Parallelen: Die Macher von Viv gehörten ursprünglich zum Siri-Team. Viv will dabei (natürlich) vieles besser machen als Siri. So sind externe Integrationen ähnlich wie Alexas Skills auch hier vorgesehen. Vor allem aber soll Viv mit komplexen Anfragen zurechtkommen. Das Lieblingsbeispiel der Macher ist die Anfrage: „Auf dem Weg zu meinem Bruder möchte ich einen günstigen Wein kaufen, der gut zu Lasagne passt.“ Sollte Viv auf solche Fragen tatsächlich zuverlässig sinnvolle Antworten liefern können, wäre das eine Sensation.

Der neue Assistent wird das Vorzeige-Feature für Samsungs kommendes Top-Smartphone Galaxy S8 sein. Dabei wird er auf den Namen Bixby hören.

Fazit

Zwischen einer gelungenen Tech-Demo und einem erfolgreichen Produkt für Konsumenten liegt immer noch eine lange Wegstrecke, die nicht unterschätzt werden darf. Nicht selten sind Vorführungen auf einer Bühne komplett geskriptet und nicht so „live“ wie sie scheinen. Zudem wissen die Macher dort natürlich ganz genau, was sie wie sagen sollen, damit das gewünschte Ergebnis herauskommt. In der Wirklichkeit muss der Sprachassistent aber mit Dialekten, Umgebungsgeräuschen und sprachlichen Eigenheiten klar kommen, schlechte Internetverbindungen verkraften oder Fragen beantworten, die die Software generell nur so halb verstanden hat oder die so mehrdeutig sind, dass sich keine simple Antwort geben lässt.

Dennoch scheint klar: Der Fortschritt bei der künstlichen Intelligenz war in den letzten Monaten teils so rasant und beeindruckend, dass sich die Fähigkeiten von Alexa, Siri, Cortana und anderen schon bald sehr spürbar verbessern können. Und dann wird es tatsächlich fürs Online-Marketing und hier nicht zuletzt für die Suchmaschinen-Optimierung interessant.

Die Frage nach dem Datenschutz dieser stets zuhörenden Assistenten steht dabei noch einmal auf einem ganz anderen Blatt und würde diesen Artikel sprengen. Erwähnen muss man es aber dennoch.

Artikel vom 18. März 2017