Alexa, Siri & Co: Sprachsuche, digitale Assistenten und Smart Speaker

Amazons „smarter Lautsprecher“ Echo mit seinem Sprachassistenten Alexa hat sich vom Kuriosum zur Erfolgsgeschichte gewandelt. Und viele andere großen Namen der Branche sind im gleichen Feld aktiv: Apple mit Siri, Samsung mit Bixby, Microsoft mit Cortana und Google mit seinem namenlosen Assistant. Aber was ist dran am Thema? Haben diese Sprachassistenten das Zeug dazu, Online-Marketing und Websuche grundlegend zu verändern, wie manche Experten behaupten? Jan Tißler erklärt in diesem Beitrag, welche Vision dahintersteckt und wie die Wirklichkeit derzeit aussieht.

Apple HomePod und Amazon Echo — Mit dem „HomePod“ (li.) will nun auch Apple im Markt der Smartspeaker mitmischen und gegen Konkurrenten wie den Amazon Echo antreten. (Foto: Jan Tißler)

Wir haben diesen Artikel im Februar 2017 veröffentlicht und zuletzt im Mai 2018 aktualisiert.

Inhaltsverzeichnis

Alexa und Echo: Amazons „iPod-Moment“

Rückblickend hatte Amazon mit dem ersten Echo wohl seinen „iPod-Moment“: Als Steve Jobs jenen MP3-Player 2001 vorstellte, war das Rätselraten zunächst groß und von Begeisterung keine Spur. Warum brachte Apple, das gerade erst mit Müh und Not der Pleite entkommen war, ausgerechnet ein solches Gerät heraus? Anfangs war der iPod auch kein großer Hit – aber er wurde letztlich zu einem und veränderte gemeinsam mit dem iTunes Music Store die Musikindustrie und ebnete Apples Weg hin zum iPhone.

Ebenso war die Berichterstattung über Amazons Echo zunächst sehr zurückhaltend. Amazon hatte sich gerade erst mit seinem Smartphone blamiert. Der Kindle hatte einiges an Dynamik eingebüßt und die neuen „Kindle Fire“-Tablets wurden allerorten auch nicht gerade als durchschlagender Hit angesehen. Warum, in aller Welt, brachte Amazon nun im Jahre 2014 einen Zylinder heraus, der praktisch ein smarter Lautsprecher mit Mikrofon war? Gab es nicht schon genug Wege, auf Amazon einzukaufen? Und wer wollte denn, bitteschön, so ein Gerät zu Hause haben, das praktisch nur eine einzige Funktion hatte?

Spulen wir einige Jahre vorwärts in die Gegenwart und Amazon hat den Echo mit dem Sprachassistenten Alexa in vielerlei Hinsicht schlau weiterentwickelt. Zum einen gibt es inzwischen weitere Versionen des Echo: den kompakten „Dot“, den mobilen „Tap“ und den „Show“ mit eingebautem Touchscreen. Zum anderen hat es sich zur Plattform entwickelt: Entwickler können Alexa neue Fähigkeiten beibringen („Skills“ genannt) und Hersteller können den Assistenten überall integrieren – sogar in Echo-Kopien. Etliche Geräte bis hin zu Autos sind inzwischen „Alexa ready“.

Warum Sprachassistenten so ein Hype sind

In diesem Video habe ich mir das Thema übrigens ebenfalls vorgenommen:

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Aber woher kommt nun diese Begeisterung für Sprachassistenten und „Voice Search“? Die grundlegende Idee ist, dass sie uns einen Blick in die Zukunft geben. Dass wir in dieser oder sehr ähnlicher Form künftig überwiegend mit Computern interagieren werden – so wie wir es beispielsweise aus „Star Trek“ kennen. Und dass das eventuell eine so große Umwälzung wird wie Touchscreens, Apps oder das Mobile Web.

Tatsächlich gibt es eine eindeutige Tendenz, wenn man sich die Entwicklung von Benutzeroberflächen bei Computern anschaut: Sie nähern sich immer weiter dem an, wie Menschen miteinander und mit ihrer Umwelt interagieren. In den Anfangsjahren war das noch so abstrakt, dass es nur Spezialisten nach entsprechender Schulung verstanden. Display und Tastatur machten das im nächsten Schritt schon ein wenig einfacher, sofern man sich mit den notwendigen Kommandos vertraut machte. Die grafische Benutzeroberfläche wiederum brauchte zwar noch Eingewöhnung, versuchte aber viele Vorgänge bildhaft zu machen – zudem kann man hier im Zweifel herumprobieren. Mit Touchscreens reagierten die Geräte dann auf bereits bekannte Gesten wie Wischen und Tippen. Natürliche Sprache wäre nun in vielen Situation eine so verständliche wie effiziente Form der Bedienung.

Beispiel: Wie so ein Assistent idealerweise funktionieren sollte

Die Idealvorstellung ist nun, dass der digitale Assistent uns genau so gut versteht, wie ein Mensch oder sogar besser. Zugleich weiß der elektronische Helfer alles, was das Internet weiß. Und er kennt uns so gut, dass er sich fehlende Informationen selbst erschließen kann. Eventuell kann er uns sogar Antworten liefern, bevor wir überhaupt gefragt haben.

Zum Beispiel könnte man zu seinem Echo sagen: „Alexa, ich möchte dieses Jahr an der re:publica teilnehmen.“ Und der Assistent würde dann mit diesem Wunsch losrennen und sich nach Tickets zur re:publica umschauen, passende Unterkünften in der Umgebung suchen und Flug- oder Zugverbindungen für mich finden. Der Assistent wüsste also nicht nur, was mit „re:publica“ gemeint ist, sondern könnte auch eigenständig herausfinden, wo und wie man dafür Tickets bekommt, wann sie stattfindet und wo. Der Assistent wüsste bereits, was für eine Art von Unterkunft ich bevorzuge und wie viel Geld ich normalerweise ausgeben möchte. Ebenso weiß der Assistent, ob ich lieber fliege oder einen Zug nehme, gern am Vorabend ankomme oder auch frühmorgens reise usw. usf.

Mit anderen Worten: Der digitale Assistent könnte meine schnell dahingeworfene Anfrage genauso abarbeiten wie ein menschlicher Assistent, der mich bereits kennt. Alle fehlenden Informationen würden selbstständig recherchiert. Am Ende könnte Alexa mir einige mögliche Varianten unterbreiten, ich würde eine davon abnehmen und der Assistent bucht alles und schickt mir die notwendigen Informationen und Tickets.

Das ist enorm komplex, aber an sich erst einmal nicht unmöglich.

Würde es tatsächlich so funktionieren, wäre das nicht nur ein sensationelles Angebot, für das viele Menschen sehr viel Geld bezahlen würden. Es könnte zugleich einen signifikanten Wandel auslösen. Viele Situationen, in denen wir bislang eine Suchmaschine wie Google oder eine App bemüht hätten, würden nun vom digitalen Assistenten abgedeckt. Unternehmen müssten sich also darum kümmern, dass Sie von Alexa und Siri gefunden werden und den Assistenten alle notwendigen Informationen zur Verfügung stehen.

Deshalb sehen manche Experten voraus, dass das Online-Marketing und hier nicht zuletzt die Suchmaschinen-Optimierung auf diesen Trend reagieren müssen. In unserer Befragung zu den SEO-Trends des Jahres wurde „Voice Search“ mehrfach genannt.

Warum aber derzeit Skepsis angebracht ist

Dabei sollte man diese theoretischen Überlegungen und die Begeisterung mancher Experten für die Potenziale nicht mit dem verwechseln, was wir heute haben. Kein Assistent versteht jeden Nutzer jederzeit. Kein Assistent versteht jede Fragestellung jederzeit richtig. Nicht in jeder Situation kann überhaupt eine einzige, allgemeingültige Antwort geliefert werden – und ist das nicht der Fall, wird es ohne Display dann doch schnell komplex für den Nutzer. Hier haben alle Firmen noch viel Arbeit vor sich. Von der oben beschriebenen Vision sind wir noch weit entfernt.

Wir haben allerdings einen Punkt erreicht, an dem ein Produkt wie der Echo mit dem Assistenten Alexa bereits eine recht breite Käuferschicht erreichen kann. War der Echo zunächst nur der Liebling mancher Tech-Schreiberlinge und anderer Gadgetfans, findet er nun auch Einzug in andere, „normale“ Haushalte. Nach einer Schätzung von Strategy Analytics hat Amazon zum Beispiel immerhin 4 Millionen davon im ersten Quartal 2018 verkauft und damit doppelt so viele wie ein Jahr zuvor. Google kommt demnach auf 2,4 Millionen Smart Speaker – das ist ein Plus von satten 709%. Und Apple soll von seinem HomePod 600.000 Stück abgesetzt haben. Insgesamt liegt der Markt derzeit bei 9,2 Millionen verkaufter Geräte im ersten Quartal 2018 und hat um 278% zugelegt.

Zum Vergleich: Der oft unterschätzte Smartwatch-Markt lag bei 75 Millionen verkauften Einheiten im Jahr 2017. Für dieses Jahr werden 141 Millionen erwartet. Dagegen sind Smart Speaker weiterhin ein Nischenprodukt.

Insofern sind Alexa und Co aus meiner Sicht gerade auf dem „Gipfel der überzogenen Erwartungen“ in Gartners berühmten Hype-Cycle angekommen oder nähern sich ihm zumindest in schnellem Tempo. Nächster Halt: das „Tal der Enttäuschungen“. Ist das durchschritten, werden Alexa, Siri, Cortana und andere den Einzug in unseren Alltag finden. Ihre Schwächen werden die Entwickler mit der Zeit ausbügeln können. Es werden neue Anwendungsfelder auftauchen, an die wir heute noch gar nicht denken. Und eher wir uns versehen, sprechen wir eben doch mit unseren Geräten, auch wenn uns das heute noch seltsam und ungewohnt vorkommt. Vor allem das Smart Home könnte hier ein Wachstumstreiber sein.

Zugleich bin ich aber derzeit sehr skeptisch, dass Sprachbefehle andere Formen der Bedienung zum Beispiel über Bildschirme komplett ersetzen werden. Eher sollte man sie als Ergänzung ansehen.

Tipps zu Voice SEO: Bei Googles Sprachsuche vorn landen

Auch mit diesen Einschränkungen im Hinterkopf sollte aber nicht unterschätzt werden, wie wichtig Sprachsuche in den nächsten Jahren werden wird. Und dort stellt sich für Unternehmen natürlich die Frage, wie die Suchmaschinen-Optimierung in diesem Fall eigentlich funktioniert. Marian Wurm, Geschäftsführer der Agentur Löwenstark, hat im Rahmen einer Presseinformation die folgenden Tipps weitergegeben. Er bezieht sich dabei vor allem auf Googles Sprachsuche. Der Suchmaschinen-Marktführer ist schließlich mit Android und an anderer Stelle bereits bestens präsent und daher entsprechend wichtig.

Durch Mark-Ups bestimmen, was vorgelesen wird

Die eigene Zielgruppe und ihr Suchverhalten über die Sprachfunktion zu kennen, sind das A und O des Voice Search-SEO-Marketings. Händler sollten sich mit den Markups von schema.org auseinandersetzen. Google, Microsoft und andere stehen dahinter. Das Ziel ist es, die Daten auf einer Website so zu strukturieren, dass sie eine Maschine direkt versteht. So kann man beispielsweise den Preis eines Produktes so kennzeichnen, dass es für Google & Co. sofort als Preis erkennbar ist. Es lässt sich außerdem direkt im Quelltext deklarieren, welche Bereiche der Website durch Google vorgelesen werden sollten.

Sinnvoll aus der SEO-Perspektive ist zudem der Aufbau eines FAQ-Bereichs auf der eigenen Webseite, der passende Antworten zu den Fragen „Wer“, „Wie“, „Was“ liefert. Drei Punkte sind hier besonders wichtig. Erstens ist es die Balance: Wird zu viel deklariert, fühlt sich der Kunde von Informationen erschlagen, bei einem Zuwenig bleibt er unbefriedigt. Zweitens: Die Kunden erwarten immer detaillierte und personalisierte Ergebnisse. Drittens: Es ist die Aufgabe des SEO-Verantwortlichen, zu bestimmen, welcher Inhalt in welchem Moment relevant ist – und dieser muss gleichzeitig kurz und informativ sein.

Laut vorlesbaren Content generieren

Im Unterschied zu herkömmlichen SEO-Texten, muss die sprachbasierte Suchmaschinenoptimierung laute Lesbarkeit gewährleisten. Daher sollte der Text einen natürlichen Sprachfluss haben. Keyword-Dichte, Überschriften und Zwischentitel waren zwar bei der herkömmlichen SEO relevant. Nutzer zeigen bei gesprochener Sprache jedoch ein anderes Suchverhalten als bei der textbasierten Eingabe. Fassen sich User beim Schreiben kurz, formulieren sie bei der Voice Search in der Regel ganze Sätze. Hat der Kunde früher also nach „Rote Schuhe kaufen“ gesucht, fragt er seinen Sprachassistenten heute: „Wo kann ich für mich in der Nähe rote Schuhe kaufen?“ Händler müssen semantisch natürliche und durchgängige Textpassagen schaffen – und damit von kurzen Schlüsselwörtern zu Long-Tail-Keywords übergehen. Dabei ist die stilistische Komponente noch wichtiger als die Suchmaschinen-Optimierung. Generell gilt: „Featured Snippets“ und herausragender Content sind ausschlaggebend für eine gute Positionierung in den organischen Suchergebnissen und das daraus resultierende „Infragekommen“ für das Vorlesen des Ergebnisses durch Google.

Die Ladegeschwindigkeit erhöhen

Wer die Sprachsuche nutzt, ist zumeist in Eile und benötigt schnelle Ergebnisse. Deswegen sind langsame Webseiten nicht nur ein No-Go, sondern eine signifikante Umsatzbremse. Wegen des Siegeszugs der sprachbasierten Suche werden zukünftig „AMP“-Seiten von Google immer wichtiger. Die Abkürzung steht für „Accelerated Mobile Pages“ und ist ein Google-eigenes, besonders schnell ladendes Format. Die entsprechenden Seiten sind zwar sehr simpel, sind aber nahezu ohne Verzögerung aufgerufen.

Die Ladegeschwindigkeit einer Seite sollte bei Voice Search keinesfalls über 1,5 Sekunden liegen. Hat der Kunde in dieser Zeit keine Antwort, dann hat der Händler ein Problem. Dafür sind die Menschen in diesem Bereich einfach zu schnelllebig.

Bilder zielgruppenorientiert und ansprechend beschreiben

Für Händler wird es zu einer immer größeren Herausforderung, Produkte sprachlich zu beschreiben. Schließlich gehen in der sprachbasierten Suche die Bilder verloren, die einen Kauf begünstigen. Händler müssen es deshalb schaffen, den Kunden auch ohne Fotos oder sonstige Abbildungen zum Kauf zu bewegen. Hierzu ist eine genaue Beschreibung dessen erforderlich, was auf Fotos oder Infografiken abgebildet ist – und dies zielgruppenorientiert.

Gerade das emotionale Bedürfnis der Kunden müsse abhängig vom Produkt befriedigt werden, indem eine bildliche Beschreibung erfolge, erklärt Marian Wurm. Weil Kunden im Low-Budget-Bereich nicht auf Abbildungen angewiesen sind, läuft vor allem dieses Segment über Voice Search bereits heute gut. Wenn der Kunde hingegen noch keine genaue Vorstellung vom Produkt hat und sich vom Foto inspirieren lassen will, bietet die Google-Sprachsuche derzeit noch keine große Hilfe.

Einen Google MyBusiness-Eintrag vornehmen

Auch die Präsenz auf bestimmten Google-Diensten kann den SEO-Erfolg bei der Sprachsuche erhöhen. So bietet Voice Search stationären Händlern, die wegen Amazon ins Hintertreffen geraten sind, die Möglichkeit, sich in ihrer Region neu zu platzieren. Kunden haben einen Mehrwert, wenn die online gesuchten Waren auch lokal vor Ort gekauft werden können. Händler sollten daher einen Brancheneintrag bei „Google MyBusiness“ vornehmen und dort auf die Bewertungen achten. Kunden, die nach einem Produkt suchen, erhalten dann zugleich von Google eine Wegbeschreibung zum Händler samt Kontaktinformationen.

Und das Gute: Alle diese Maßnahmen helfen der eigenen Website auch, bei der klassischen Google-Suche weiter vorn zu landen.

Die Rolle der Domain für die Sprachsuche

So wie Sprachassistenten die Online-Suche verändern, verändern sich auch die Erfolgskriterien, die für eine gute Platzierung sorgen. Das betrifft nicht nur die Inhalte von Webseiten, sondern auch die Domains, unter denen diese im Internet gefunden werden. Darauf weist die dotBERLIN GmbH & Co. KG hin. Ihre Tipps:

Es macht Sinn, wenn die Domain den Standort enthält

Voice Search ist demnach vor allem für Unternehmen interessant, die sich auf lokale Zielgruppen beschränken. Das Unternehmen BrightLocal hat in einer 2018 durchgeführten Studie herausgefunden, dass 58 Prozent der Nutzer ihre Sprachassistenten befragt haben, um Informationen zu genau solchen Unternehmen zu bekommen.

Deshalb sei es sinnvoll, wenn bereits die Domain Aufschluss darüber gibt, wo sich ein Unternehmen befindet. Möglich ist das zum Beispiel mit Adressen wie www.dachdecker-in-berlin.de oder eben auch www.dachdecker.berlin. Im zweiten Beispiel wird der Standort des Unternehmens direkt anhand der Domain-Endung ersichtlich. In Deutschland gibt es neben .berlin bisher die Domain-Endungen .hamburg, .koeln bzw. .cologne, .ruhr, .saarland, .nrw und .bayern.

Die Kürze der Domain ist nicht mehr wichtig

Die Kürzer einer Domain zählte für Website-Besitzer bisher zu den wichtigen Kriterien. Zum einen, weil potentielle Besucher sich eine kurze Domain besser merken können. Zum anderen, weil sie nicht so viel tippen müssen, wenn sie die Adresse direkt in die Browserzeile eingeben. Gleichzeitig sind viele kurze und trotzdem sinnvolle Namen unter Top-Level-Domains mit hohen Registrierungszahlen – wie zum Beispiel .de und .com – kaum noch frei.

Da ist es eine gute Nachricht, dass die Kürze einer Domain für die Sprachsuche keine Rolle spielt. Laut einer Studie von SEMrush sind die Antworten, die Sprachassistenten auf Anfragen geben, im Durchschnitt 41 Wörter lang. So wird eine Adresse wie www.klimaneutrallebenin.hamburg dank Voice Search auf einmal zur eingängigen Domain – obwohl sie relativ lang und schwer lesbar ist. Ihr Vorteil ist, dass sie ganz natürlich ausgesprochen werden kann.

Die Domain sollte sich am natürlichen Sprechverhalten orientieren

Was für die Inhalte von Websites gilt, sollte auch für die zugehörigen Internetadressen beachtet werden: Die Sprachsuche wurde nicht für Computer erfunden, sondern um Menschen die Suche nach Informationen zu erleichtern. Deshalb ist Voice Search auch an das natürliche Sprechverhalten angepasst.

Nutzer kommunizieren mit ihren Sprachassistenten in ganzen Sätzen. Sie stellen Fragen wie „Wo ist der größte Schuhladen in Hamburg?“ – und werfen ihnen nicht etwa einzelne Keywords wie „größter schuhladen hamburg“ entgegen. Damit sind für die Sprachsuche sogar Domains geeignet, die aus ganzen Sätzen bestehen, weil sie das Sprechverhalten von Menschen ganz natürlich imitieren: www.woistdergrößteschuhladenin.hamburg.

Die Domain muss klar verständlich sein

Damit Sprachassistenten verwertbare Ergebnisse ausspucken, müssen Anfragen eindeutig sein. Adressen wie www.stoffgschäfd-inbayern.de können so leicht zur Stolperfalle werden, vor allem, wenn ein Nutzer seinem Sprachassistenten die Domain einmal diktieren sollte. „Gschäfd“ ist Dialekt – versteht der Sprachassistent das? An welcher Stelle stand der Bindestrich? Tatsächlich sind Internetadressen mit Abkürzungen oder speziellen Schreibweisen für Voice Search weniger geeignet. Die bessere Alternative ist eine Adresse wie www.stoffgeschäft.bayern.

Wer sich nicht sicher bist, ob Sprachassistenten eine Domain verstehen, macht vorab am besten den Test mit einem echten Menschen: Dazu einfach die Internetadresse per Sprachnachricht an das Smartphone eines Bekannten schicken und ihn bitten, das Gehörte als Text zurückzuschicken. Wenn die Adresse fehlerfrei zurückkommt, wird sie wahrscheinlich auch vom Sprachassistenten verstanden.

Beispiel Bring!-App: Lohnt es sich, einen „Alexa Skill“ zu entwickeln?

Neben der Suchmaschinen-Optimierung gibt es noch eine zweite Möglichkeit, bei Sprachassistenten präsent zu sein: Man entwickelt eine zusätzliche Funktionalität. Bei Amazons Alexa werden die „Skills“ genannt. Man kann sich das so ähnlich wie eine App auf einem Smartphone vorstellen – nur eben per Sprachbefehl gesteuert.

Ein Beispiel ist der Skill der Bring!-App. Sie ist ein Mix aus Shopping- und Productivity-App. Nutzer können auf ihrem Smartphone, Tablet und der Smartwatch Einkaufslisten erstellen, mit anderen teilen und so gemeinsam den Lebensmitteleinkauf planen. Gegründet wurde die Bring! Labs AG im April 2015 von den drei Schweizern Marco Cerqui, Sandro Strebel und Dominic Mehr. Das Unternehmen sitzt in Zürich und hat derzeit acht Mitarbeiter.

Ein Hackathon war der Startschuss für die Entwicklung des Alexa Skills, „um die Kreativität der beiden Developer Jürg Egli und Sandro Strebel anzukurbeln“, wie es im Pressetext dazu heißt. „Nachdem wir Alexa kennengelernt und einen ersten Prototyp entwickelt hatten, waren schon einige wichtige Insights zusammengekommen: Das Development einer sprachgesteuerten App folgt nämlich ganz anderen Maßstäben als jenes einer grafischen App“, erklärt Sandro Strebel darin. Er verweist darauf, dass man die Bedienung beispielsweise nicht mit visuellen Hinweisen („Coachmarks“) erklären kann. Außerdem gibt es hier eben keine sichtbaren Optionen wie bei einer grafischen Benutzeroberfläche.

Die größte Herausforderung sei der Entwurf von möglichst natürlichen Dialogen gewesen. „Als Entwickler musste ich mir deshalb konkrete Szenarien ausdenken, was könnten User fragen? Und was soll Alexa darauf antworten?“ sagt Jürg Egli. Um die Nutzer schrittweise an den Funktionsumfang zu gewöhnen und sich wiederholende Antworten zu vermeiden, lehrte Bring! Alexa verschiedene Versionen der Bestätigungen und Nachfragen.

Schrittweise umdenken mussten die Entwickler auch für den Fall, dass eine Interaktion nicht klappt oder Alexa einen Listennamen nicht versteht. In solchen Situationen wurde der Skill so gestaltet, dass Alexa gemeinsam mit dem User durch die bestehenden Listen geht und für jede fragt, ob sie als Standardliste gesetzt werden soll.

Im Ergebnis ordnen die Bring!-Developer den Aufwand für die Skill-Entwicklung viel geringer als für eine konventionelle App ein. Vom bestehenden Backend konnte bereits viel für den Skill genutzt werden.

Die Entwickler des Amazon Echo Skills für Bring: Sandro Strebel und Jürg Egli (Quelle: Bring!)

In Ergänzung zur Pressemitteilung haben wir den Machern noch einige Rückfragen gestellt. Sie wurden beantwortet von Dominic Mehr, Chief Content Officer und Marketing-Experte von Bring!

Wie lange hat die Entwicklung der ersten Version des Skills gedauert?

Insgesamt blicken wir auf rund einhundert Mannstunden unserer beiden Entwickler zurück. Wir haben die Aufgaben so aufgeteilt, dass wir daneben noch genügend Zeit für die operativen Aufgaben hatten und sich die Entwicklung des Skills trotzdem nicht zu sehr in die Länge zog. Wenn sich nur ein Entwickler neben dem Tagesgeschäft darum gekümmert hätte, hätte es zu lange gedauert, bis wir erste Resultate und damit eine Entscheidungsgrundlage für die weiteren Schritte in dem Bereich gehabt hätten.

Aufgeteilt haben wir Aufgaben wie das Abklären technischer Fragen, z.B. Account-Verknüpfung, Entwerfen und Konfigurieren der Benutzerinteraktion. Dazu kam das Ermitteln möglichst guter Beispielwerte für geeignete Listennamen, Artikel oder Mengenangaben, mit denen Alexa trainiert sowie das Entwickeln der eigentlichen Skill-Logik.

 Wie viel Zeit haben Sie bislang in Bugfixes, Verbesserungen und Erweiterungen investiert? Welchen Aufwand erwarten Sie da für die Zukunft? Ist das vergleichbar mit einer App, die ja neben dem inititalen Aufwand auch immer ein Budget für Updates und Weiterentwicklungen benötigt?

Bisher hat sich der Aufwand für Bugfixes in Grenzen gehalten und liegt unter einer Woche. Wir erhalten aber konstruktive Rückmeldungen von Benutzern und berücksichtigen diese auch, wenn etwa Icons in der App nicht angezeigt werden. Deshalb erwarten wir schon einen gewissen laufenden Aufwand für die Betreuung der Benutzer und das Beheben von Fehlern. Wir müssen auch sicherstellen, dass neue Features der App – sofern für Sprachsteuerung sinnvoll – in Alexa nutzbar sind. Wir rechnen hier aber mit einem kleineren Implementierungsaufwand für Alexa als für unsere Main-Apps.

Können Sie mit Zahlen deutlicher machen, wie viel Ihnen der Skill gebracht hat? Auf welche KPIs kam es Ihnen da besonders an?

Unsere Begeisterung für Amazon Alexa ist nicht primär durch KPIs getrieben, sondern mehr von unserer Vision. Wir sind der Überzeugung, dass digitale Assistenten einen festen Platz in unserer Zukunft haben werden. Darum möchten wir da von Anfang an dabei sein. Gleichzeitig geben uns die KPIs recht: Nach kurzer Zeit im Skill Store verwenden bereits über 20.000 Personen den Bring! Skill für Alexa.

 In den Reviews auf Amazon beschweren sich manche, dass man zuerst Bring! aktivieren muss, bevor man etwas auf einer Liste ergänzen kann. Ist das eine Limitierung auf Seiten Alexas oder ist das etwas, woran Sie noch arbeiten können?

Das ist aktuell eine Limitierung auf Seiten von Alexa und wir haben das gegenüber Amazon bereits angesprochen. Wir versuchen, unseren Benutzern von Anfang an aufzuzeigen, wie sie den Bring! Skill starten können und halten die Interaktionen bewusst so einfach wie möglich.

Nach Ihrer Erfahrung bisher: Wann eignet sich die Entwicklung eines Alexa Skills (eher) nicht und wann ergibt sie Sinn?

Amazon selbst gibt im Skills Kit Hinweise dafür, wie den Usern Informationen präsentiert werden sollten. Bei sprachlicher Interaktion kann sich der Benutzer zur Orientierung nicht auf Bilder und Grafiken verlassen. Der Skill muss dem Benutzer über klare prägnante Aussagen die nötige Orientierung geben. Das hat aber Grenzen, weil sich der Benutzer ohne Nachlesen nur kleine Informationseinheiten merken kann. Eine Dating App, die nur über Sprachbefehle funktioniert, wäre beispielsweise eher nicht geeignet für einen Alexa Skill.

Smart Speaker: Sprachassistenten in der Box

Die Sprachassistenten von Apple und Google finden sich in den Betriebssystemen der beiden Unternehmen. Amazons Alexa wird von vielen anderen Herstellern und in zahlreichen Geräten genutzt. Samsung will mit seinem „Bixby“-Assistenten den Markt erobern und hat sich dazu ein vielversprechendes Startup eingekauft. Es passiert also eine ganze Menge. Hier ein Überblick zu den aktuellen Entwicklungen.

Amazon Alexa

Mike George, Vice President für Echo, Alexa und den Appstore bei Amazon. Er zeigt hier einen „Echo Tap“ bei der TechCrunch Disrupt NY 2016. (Foto: Noam Galai/Getty Images for TechCrunch. Lizenz: CC BY 2.0)

Alexa ist der Sprachassistent, der Amazon Echo ist die hauseigene Hardware dazu. 2014 hat Amazon beides erstmals der Öffentlichkeit gezeigt. Der Echo ist dabei ein mit dem Internet verbundener Lautsprecher inklusive mehrerer Mikrofone. Per Sprachbefehl kann er beispielsweise Musik spielen, die Wettervorhersage bekannt geben oder natürlich auch bei Amazon bestellen. Das neueste Modell namens Echo Show hat einen Touchscreen und eine Webcam eingebaut. Darüber sind nun auch Videoanrufe möglich, „Alexa Calling“ genannt.

Das System ist wie weiter oben bereits erwähnt über „Skills“ („Fähigkeiten“) erweiterbar: Drittanbieter können so Alexa weitere Fähigkeiten beibringen. Auf diese Weise kann der Echo auch zum zentralen Hub fürs Smart Home werden.

Alexa ist aber nicht im Echo gefangen: Über Amazons „Alexa Voice Service“ können andere Hersteller den Assistenten integrieren – kostenlos. Das hat zuletzt beispielsweise dazu geführt, dass ein Top-Android-Smartphone von Huawei mit Alexa vorinstalliert auf den Markt kommt. Das dürfte Google wenig gefallen, allerdings stellen sie ihren Konkurrenten „Google Assistent“ nur nach und nach zur Verfügung. HP hat einen All-in-One-PC mit Alexa vorgestellt. Lenovo wiederum brachte mit dem „Smart Assistant“ gar einen waschechten Echo-Klon heraus, der 50 US-Dollar weniger kostet als das Vorbild.

Amazon kommt es ganz offensichtlich darauf an, sich so schnell wie möglich einen Platz in diesem Markt zu sichern. Denn nur so können sie selbst bestimmen, wie ihre E-Commerce-Angebote integriert werden.

Apple Siri

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Bereits 2011 hat Apple seinen Sprachassistenten Siri vorgestellt. Damals war er noch ein exklusives Feature des iPhone 4S. Siri wurde aber nicht von Apple selbst entwickelt, sondern aufgekauft. Geplante Versionen von Siri für Android und BlackBerry wurden im Zuge dessen eingestampft. Inzwischen ist Siri dafür auf allen Plattformen des kalifornischen Unternehmens vertreten – von der Armbanduhr bis zum Desktop-Mac.

Neuester Streich: der smarte Lautsprecher „HomePod“. Mit ihm möchte das Unternehmen wohl an den Erfolg es iPod anknüpfen. Er wird in erster Linie als kompakter, gut klingender Lautsprecher vermarktet, der einen digitalen Musikexperten eingebaut hat – Siri eben. Aber Siri kann auch vieles von dem, was der Assistent sonst kann, also Antworten auf diverse Fragen geben oder das Smart Home steuern, sofern es auf Apples HomeKit setzt. Der HomePod kommt in Deutschland im Frühjahr 2018 auf den Markt. Der Preis wird wahrscheinlich bei 419 Euro liegen.

Im Kundenauftrag habe ich ihn hier in den USA gekauft und habe meinen HomePod-Testbericht dazu hier veröffentlicht. Dabei taucht „Siri“ übrigens im Punkt „Schwächen“ auf, denn Apple hat sich hier über die Jahre die Butter vom Brot nehmen lassen.

Ähnlich wie bei Alexa, können Dritthersteller inzwischen ihre Apps mit Siri verknüpfen. Allerdings ist das derzeit nur sehr eingeschränkt in einigen bestimmten Kategorien von Apps möglich. Und auf dem HomePod geht das derzeit noch gar nicht.

Facebook Jarvis

Mit dem Laden des Beitrags akzeptieren Sie die Datenschutzerklärung von Facebook.
Mehr erfahren

Beitrag laden

Facebook-Beiträge immer entsperren

Jarvis ist (noch) kein fertiges Produkt von Facebook. Vielmehr ist es eine Fingerübung von Facebook-Gründer und -CEO Mark Zuckerberg. Was man halt so in seiner Freizeit macht, wenn man das größte Social Network der Welt erschaffen hat. Ihm ging es nach eigenen Worten darum, etwas über den Stand der Dinge bei der Künstlichen Intelligenz zu lernen. Über Jarvis kann er sein Smart Home kontrollieren und der Assistent soll außerdem mit der Zeit etwas über die Gewohnheiten und Vorlieben des Benutzers lernen. Anstatt wie bei Alexa neue „Skills“ manuell zu installieren, soll Jarvis beispielsweise selbst herausfinden, wie er bislang unbekannte Aufgaben erledigt. Diese Kombination von Sprachassistent und selbstlernender K.I. finde ich persönlich sehr spannend. Denn im Grunde wollen die Nutzer keine Funktionen installieren, sondern jederzeit und sofort sinnvolle und hilfreiche Antworten auf jede denkbare Frage bekommen.

Offiziell ist Jarvis derzeit nur ein privates Projekt von Mark Zuckerberg. Er denkt nach eigenen Worten aber darüber nach, den Quellcode frei zur Verfügung zu stellen (alias „Open Source“). Derzeit sei das dafür aber alles zu direkt mit seinem Zuhause und den dort vorhandenen Geräten verbunden. Alternativ könnte Jarvis auch die Basis für ein neues Produkt sein.

Google Assistant

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Sprachsuche ist schon länger ein Thema bei Google und seit 2012 hatte es im digitalen Assistenten Google Now seine Heimat gefunden. Mit dem Google Assistant soll es nun auf die nächste Stufe und auf Augenhöhe mit der Konkurrenz gebracht werden. Dabei gibt es auch eine Entsprechung zu Amazons Echo, hier Google Home genannt.

Zunächst konnten nur wenige Nutzer den neuen Assistenten ausprobieren: Er war neben dem Home u.a. den „Pixel“-Smartphones von Google selbst vorbehalten. Im Februar 2017 hat Google dann angekündigt, es auf alle Android-Smartphones ab Version 6.0 („Marshmallow“) zu bringen. Wer auf den Sprach-Part verzichten kann, findet eine Version des Assistenten derzeit in Googles Chat-App Allo.

Was Amazon „Skills“ nennt, heißt hier dann „Actions on Google“. Darüber können Entwickler also Drittanbieter-Funktionen für den Assistenten entwickeln.

Inzwischen hat Google sein Smart-Speaker-Angebot um den kleinen und günstigen Home Mini und den eher wuchtigen Home Max erweitert.

Microsoft Cortana

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Microsoft hat seinen Assistenten Cortana erstmals 2014 gezeigt. Benannt wurde er nach einer künstlichen Intelligenz in der „Halo“-Spielserie. Cortana kam zum ersten Mal in Windows 10 zum Einsatz und ist inzwischen auch für Android- und iOS-Geräte verfügbar sowie auf der Xbox One. Die Funktionalität ist mit dem vergleichbar, was bei der Konkurrenz schon beschrieben wurde. Dabei ist Cortana eng mit Microsofts Browser Edge sowie seiner Suchmaschine Bing verknüpft.

Cortana ist neben Chatbots ein Teil dessen, was Microsoft-CEO Satya Nadella unter dem Begriff „Konversation als Plattform“ zusammengefasst hat. Microsoft wolle „die Kraft der menschlichen Sprache“ nehmen und sie an vielen Stellen anwenden. Das hatte er auf der Build-Konferenz 2016 in San Francisco in seiner Keynote erklärt. Er sieht Sprache als neue Form der Benutzeroberfläche. „Bots sind die neuen Apps, digitale Assistenten sind Meta-Apps“, sagte er.

Ein Jahr später zeigte Microsoft ebenfalls eine Schnittstelle für Entwickler („Cortana Skills Kit“). Künftig soll Cortana außerdem, ebenso wie Alexa, von anderen Herstellern für ihre Geräte genutzt werden können. Harman-Kardon hat beispielsweise einen Echo-Konkurrenten namens „Invoke“ mit Cortana auf den Markt gebracht.

Allerdings hat sich Amazon mit Alexa vom Konkurrenten zum Partner gewandelt. 2017 kündigten Microsoft und Amazon an, dass ihre Sprachassistenten „bald“ zusammen arbeiten sollten. Eigentlich war das schon für 2017 geplant.

Samsung Bixby und Viv

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Mit dem Galaxy S8 hat Samsung seinen Sprachassistenten „S Voice“ nicht nur in „Bixby“ umbenannt, sondern auch weiterentwickelt. Wirklich spannend wird es allerdings erst mit Bixby 2.0. Dann soll nämlich die Software des Startups „Viv“ endlich Einzug halten. Samsung hatte es im Oktober 2016 aufgekauft.

Die Macher hinter Viv gehören zum ursprünglichen Siri-Team und hatten Apple offenbar verlassen, um ihre eigene Vision umzusetzen. In Demos wie im Video oben wird gezeigt, dass der Viv-Assistent auch mit komplexeren Anfragen zurecht kommt. Das Lieblingsbeispiel der Macher ist die Anfrage: „Auf dem Weg zu meinem Bruder möchte ich einen günstigen Wein kaufen, der gut zu Lasagne passt.“ Sollte Bixby 2.0 auf solche Fragen tatsächlich zuverlässig sinnvolle Antworten liefern können, wäre das eine Sensation. Außerdem sollen Drittanbieter Bixby um Funktionen erweitern können – ähnlich der „Skills“ bei Amazons Alexa. Wie gut diese Integration ist und wie sehr sich Entwickler dazu motivieren lassen, steht allerdings noch in den Sternen.

Samsung will seinen Assistenten überall in seiner umfangreichen Produktpalette einsetzen – vom Fernseher bis zur Waschmaschine. Auch ein eigener Konkurrent zu Echo, HomePod und Co ist angekündigt.

Smart Speaker im Vergleich: Amazon Echo vs Google Home vs Apple HomePod

Was können die Smart Speaker von Amazon, Google und Apple? Im Kundenauftrag habe ich einen Video-Marktüberblick samt subjektivem Vergleich aufgenommen:

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Fazit

Zwischen einer gelungenen Tech-Demo und einem erfolgreichen Produkt für Konsumenten liegt immer noch eine lange Wegstrecke, die nicht unterschätzt werden darf. Nicht selten sind Vorführungen auf einer Bühne komplett geskriptet und nicht so „live“ wie sie scheinen. Zudem wissen die Macher dort natürlich ganz genau, was sie wie sagen sollen, damit das gewünschte Ergebnis herauskommt. In der Wirklichkeit muss der Sprachassistent aber mit Dialekten, Umgebungsgeräuschen und sprachlichen Eigenheiten klar kommen, schlechte Internetverbindungen verkraften oder Fragen beantworten, die die Software generell nur so halb verstanden hat oder die so mehrdeutig sind, dass sich keine simple Antwort geben lässt.

Dennoch scheint klar: Der Fortschritt bei der künstlichen Intelligenz war in den letzten Monaten teils so rasant und beeindruckend, dass sich die Fähigkeiten von Alexa, Siri, Cortana und anderen schon bald sehr spürbar verbessern können. Und dann wird es tatsächlich fürs Online-Marketing und hier nicht zuletzt für die Suchmaschinen-Optimierung interessant. SEO für Sprachsuche oder eigene „Skills“ für Sprachassisten könnten hier wie in diesem Artikel für so manches Unternehmen interessant und wichtig werden.

Die Frage nach dem Datenschutz dieser stets zuhörenden Assistenten steht dabei noch einmal auf einem ganz anderen Blatt und würde diesen Artikel sprengen. Erwähnen muss man es aber dennoch.

Dieser Artikel gehört zu: UPLOAD Magazin 43

In dieser Ausgabe haben wir drei ausführliche und hilfreiche Fachbeiträge zum Thema SEO für Sie: erfolgreiche Inhalte, Google Search Console und die SEO-Tools Sistrix und SEMrush im Vergleich. Außerdem haben wir acht Expertinnen und Experten nach den wichtigsten Themen, Trends und Mythen rund um SEO im Jahre 2017 befragt.

Schon gewusst? Mit einem Zugang zu UPLOAD Magazin Plus oder zur Content Academy lädst du Ausgaben als PDF und E-Book herunter und hast viele weitere Vorteile!

Jan Tißler

Jan hat mehr als 20 Jahre Berufserfahrung als Online-Journalist und Digitalpublizist. 2006 hat er das UPLOAD Magazin aus der Taufe gehoben. Seit 2015 hilft er als CONTENTMEISTER® Unternehmen, mit Inhalten die richtigen Kunden zu begeistern. Und gemeinsam mit Falk Hedemann bietet er bei UPLOAD Publishing Leistungen entlang der gesamten Content-Marketing-Prozesskette an. Der gebürtige Hamburger lebt in Santa Fe, New Mexico.

Alexa, Siri & Co: Sprachsuche, digitale Assistenten und Smart Speaker verändern das Marketing

Alexa und Echo: Amazons „iPod-Moment“

Warum Sprachassistenten so ein Hype sind

Beispiel: Wie so ein Assistent idealerweise funktionieren sollte

Warum aber derzeit Skepsis angebracht ist

Tipps zu Voice SEO: Bei Googles Sprachsuche vorn landen

Durch Mark-Ups bestimmen, was vorgelesen wird

Laut vorlesbaren Content generieren

Die Ladegeschwindigkeit erhöhen

Bilder zielgruppenorientiert und ansprechend beschreiben

Einen Google MyBusiness-Eintrag vornehmen

Die Rolle der Domain für die Sprachsuche

Es macht Sinn, wenn die Domain den Standort enthält

Die Kürze der Domain ist nicht mehr wichtig

Die Domain sollte sich am natürlichen Sprechverhalten orientieren

Die Domain muss klar verständlich sein

Beispiel Bring!-App: Lohnt es sich, einen „Alexa Skill“ zu entwickeln?

Smart Speaker: Sprachassistenten in der Box

Amazon Alexa

Apple Siri

Facebook Jarvis

Google Assistant

Microsoft Cortana

Samsung Bixby und Viv

Smart Speaker im Vergleich: Amazon Echo vs Google Home vs Apple HomePod

Fazit

Dieser Artikel gehört zu: UPLOAD Magazin 43

Beitrag weiterempfehlen: