Dieser Skill wurde von unserem Studienpartner VUI.agency in zwei Versionen entwickelt. In dem ungeführten Skill mussten die Nutzer ohne das aktive Angebot an Hilfestellung durch den Skill „navigieren“. Die geführte Version des Skills bot regelmäßig Hilfestellungen an, die die Navigation durch den Skill erklärte.

Erwartungen an Alexa werden häufig erfüllt

Die Ergebnisse zeigen, dass nach der zweiwöchigen Erprobungszeit mehr als die Hälfte der Teilnehmer angeben, dass Ihre Erwartungen an Alexa erfüllt wurden. Die Interaktion mit dem Assistenten macht ihnen großen Spaß, sie schätzen die freundliche Stimme, die Leichtigkeit der Interaktion als auch die große Auswahl an Skills, die genutzt werden können. Die durchschnittliche Nutzungszeit dieser Gruppe beträgt ca. 30 Minuten.

Für 42% der Nutzer erfüllten sich die Erwartungen nur zum Teil oder gar nicht. Sie waren oft frustriert von der unnatürlichen Kommunikation und der unflexiblen Bedienung von Alexa. Dabei trat immer wieder das Problem auf, dass der Sprachassistent sie nicht vollständig verstand. Das wurde z.T. darauf zurückgeführt, dass die Entfernung zum Gerät zu groß war, z.T. wurden aber auch Hintergrundgeräusche dafür verantwortlich gemacht. Wenn der Echo bspw. Musik abspielt, mussten die Teilnehmer regelrecht „schreien“ um Alexa zum Zuhören zu bewegen. Ebenso bei der Eingabe von fremdsprachlichen (Eigen-)Begriffen und Namen: Alexa hat sie oft nicht richtig verstanden.

Aber auch die korrekte Befehlseingabe bereitete einigen Teilnehmern Schwierigkeiten. Zum einen erinnerten sich einige Teilnehmer nicht mehr an den korrekten „Invocation Name“ also den Aufrufnamen für den Skill, so dass der Aufruf gar nicht erfolgen kann. Zum anderen werden die Befehle nicht in der korrekten Anordnung geben, was ebenfalls dazu führt, dass die Skills nicht richtig ausgeführt werden. In diesem Zusammenhang wird auch kritisiert, dass Alexa den Kontext nicht richtig einordnet. Auf die Frage etwa: „Wann wurde Mozart geboren?“ antwortet Alexa richtig mit 1756. Bei der Nachfrage: „Und wo wurde er geboren?“  ist Alexa überfordert, da sie den Bezug zu Mozart nicht mehr herstellen kann. Hier wäre mehr „Intelligenz“ wünschenswert.  

Die kritischer eingestellten Nutzer führen auch wiederholt an, dass sie ein Unbehagen verspüren bei dem Gedanken, dauerhaft „abgehört“ zu werden.

Nur wenige überzeugende Inhalte vorhanden

Selbstverständlich sind auch die verfügbaren Inhalte für die User Experience ausschlaggebend. In der zweiwöchigen Erprobungsphase gingen die am häufigsten genutzten Skills nur in Einzelfällen über die „Standardinhalte“ hinaus, die da wären News abhören, Musik, Radio bzw. Spotify starten oder Wetter und Verkehrsmeldungen abrufen.

Nutzung und User Experience im Zeitverlauf

Abgesehen von der Einrichtung des Echos am ersten Tag, pendelt sich die Nutzungszeit schnell auf ein Niveau von 20 bis 25 Minuten ein. Bei den begeisterten Nutzern beträgt die durchschnittliche tägliche Nutzungszeit dabei ca. 30 Minuten. Bei den weniger engagierten Nutzern bewegt sich die tägliche Nutzungszeit bei ca. 15 Min.

Dabei ist eine steile Lernkurve zu beobachten. Schon nach einer Woche geben weniger als die Hälfte an, noch etwas Neues dazu zu lernen in der Interaktion mit Alexa. Nach zwei Wochen reduziert sich dieser Anteil auf weniger als ein Drittel. Alles spricht dafür, dass Alexa vergleichsweise leicht zu erlernen ist. So lässt sich auch der Emotionsverlauf über die ersten zwei Wochen der Nutzung erklären.

Nach der Anfangseuphorie zu Anbeginn, sinkt die Begeisterung für Alexa zunächst ab, insbesondere dann, wenn die Teilnehmer mit einigen Problemen oder Unzulänglichkeiten der Interaktion konfrontiert werden. Doch schon nach kürzester Zeit steigt die Zufriedenheit wieder an, was auf den oben beschriebenen schnellen Lerneffekt zurückzuführen ist. So steigt die emotionale Bewertung sogar über den Ausgangspunkt an. Nach etwa 10 Tagen ist der Höhepunkt erreicht. Der Gewöhnungseffekt führt zu einem leichten Absinken der positiven Emotionen. Gleichwohl ist das Niveau insgesamt auch nach zwei Wochen noch ausgesprochen hoch.

Zufriedenheit kann durch gute Skillgestaltung deutlich gesteigert werden

Besonders interessant ist der Vergleich der Performance Indikatoren in Hinblick auf die Nutzung der zwei unterschiedlichen Skills. Die aufgestellte Hypothese, dass der stark geführte Skill bei längerer Nutzung zu einem Absinken der Zufriedenheit führt, konnte nicht bestätigt werden. Im Gegenteil, die wahrgenommene Zufriedenheit in der Gruppe der Teilnehmer mit dem geführten Skill ist über den ganzen Befragungszeitraum deutlich höher. Zwar kann der ungeführte Skill zum Ende der Beobachtungszeit noch etwas Boden gut machen, kommt aber nicht an den geführten Skill heran.

Auch die direkte Abfrage offenbart: Die Teilnehmer, die aktiv keine Hilfestellungen angeboten bekommen, fordern diese vehement ein. Aber noch erstaunlicher: Die Gruppe mit dem sehr intensiv geführten Skill wünschen sich zu knapp einen Drittel noch mehr Hilfestellung. Verhalten weniger Hilfestellung wollen in dieser Gruppe nur 41%. Es zeigt sich also, dass Führung und Hilfestellungen sehr positiv wahrgenommene Eigenschaften sind.

Diese Bild bestätigt sich auch bei den Maßen zur subjektiven Einschätzung des Spracherkennungssystems. Die folgenden Abbildungen zeigen die wahrgenommenen, relativen Bewertungsunterschiede zwischen den Nutzern die Hilfestellungen in dem Skill bekommen haben und denen, die keine Hilfestellungen erhalten haben.

Fazit: Was ist für einen guten Skill zu beachten?

Zu einem gut gestalteten Skill gehört es auch, den Nutzer an die Hand zu nehmen und ihn durch die Funktionen zu führen. Ebenso wie auch bei graphischen Interfaces kann die Bedienung dadurch erleichtert und die Zufriedenheit gesteigert werden, dass Dialoge bei der Nutzung unterstützen. Bei graphischen User Interfaces kann das z.B. durch Dialogfenster erfolgen. „Wollen Sie die Datei vor dem schließen speichern“ oder „Öffnen sie eine der zuletzt genutzten Dateien.“ Wenn diese Hilfestellungen nicht gegeben sind, verlieren sich die Nutzer oder begehen Fehler. Das gilt auch verstärkt für Voice Interfaces. Neben einer professionellen Programmierung der Skills gehört somit auch dazu, die Bedürfnisse und Fähigkeiten der Nutzer bei der Bedienung von Sprachinterfaces zu kennen und diese bei der Konzeption der Skills einfließen zu lassen. Facit Digital und VUI.agency verfügt über die Tools und Möglichkeiten, diese Prozesse zu unterstützen und so zu einer verbesserten User Experience beizutragen. 


Autor:

Yvonne Göpfert
Yvonne Göpfert

ist Expertin für digitales Marketing und Multichannel-Commerce. Sie liebt VR, AR und ein bisschen auch KI und probiert aus, was die neuen Technologien so leisten. Zum Stressausgleich beschäftigt sie sich ganz analog mit Kräutern. Und mischt sie zu Tinkturen, Hustensirup oder leckeren Kochrezepten.