VUI - Voice User Interface: Es gibt viel zu tun in Europa

2019-10-21 17:00 Conversational AI

Die zweite All About Voice Konferenz fand in München statt. Über 200 Teilnehmer aus der DACH-Region lernten einen Tag lang von führenden Experten und tauschten sich über das Thema Voice First aus. Ich war dabei und hier sind meine wichtigsten Eindrücke:

Es gibt im Moment keinen besseren internationalen Experten der Voice-Szene als ihn: Bret Kinsella von voicebot.io. Mit gut dokumentierten Zahlen zeigte er den Voice-Markt und dessen Zustand auf. Wie er zu Recht feststellte, kann Europa viel vom Voice-Markt in den USA lernen. Auch hier sind uns die USA wieder einmal einen Schritt voraus. Im Gartner Hype Cycle befinden sich die Sprachassistenten in der Phase Trough of Disillusionment. Das bedeutet, dass wir uns inmitten eines Tals der Enttäuschungen befinden. Dieser Dämpfer ist normal bei einer neuen Technologie. Wir stehen nun vor der Herausforderung einer sinnvollen Nutzung der Technologie. Gartner sagt voraus, dass in zwei Jahren «Spracherkennung» zum Mainstream gehören wird und «Sprachassistenten» dicht dahinter folgen werden. Ich möchte Ihnen eine Statistik aus seinem Vortrag nicht vorenthalten: die Smart Speaker Penetration pro Haushalt aus vier Ländern in Europa. Hauptsächlich in Ländern, in denen Amazon auf dem Markt aktiv ist. Man sieht das extreme Wachstum und die Tatsache, dass jeder fünfte Haushalt in Grossbritannien und jeder zehnte in Deutschland bereits einen Smart Speaker nutzt.

Quelle: voicebot.ai

Eine der besten Aussagen von Bret Kinsella war aus meiner Sicht die folgende:
"Wir mussten uns schon immer an die Sprache der Technologie anpassen, um sie nutzen zu können. Mit der Sprache ist es das erste Mal, dass die Technologie uns versteht."

Adva Levin von Pretzel Labs gab einen Einblick, wie je nach Anwendung die Persönlichkeit eines Sprachassistenten anhand einer Voice-App für Kinder gestaltet werden muss. Das Testen von Voice-Apps ist wichtig, damit die Nutzer nicht gleich nach dem Go-live wieder abspringen. Wenn etwa die Stimme falsch gewählt wird, die Sprechgeschwindigkeit oder die richtige Wortwahl, verlieren die Kinder relativ schnell das Interesse an der Voice-App. Durch die Tests wurde den Entwicklern auch bewusst, dass es drei verschiedene Arten von Dialogen geben muss. Kinder unterscheiden sich in der Lerngeschwindigkeit, in der Art und Weise, wie sie sprechen und den Sprachassistenten verstehen. Kinder haben wie Erwachsene nicht alle den gleichen Platz in der Schublade und unterschiedliche Bedürfnisse.

Jon Bloom von Google arbeitet seit 20 Jahren mit Voice User Interfaces. Missverständnisse in der Kommunikation sind normal. Auch zwischen Menschen gibt es die jeden Tag. Aber im Vergleich zu Sprachassistenten scheinen wir Menschen weniger Geduld zu haben. Es ist wichtig, dass wir eine Strategie für diese Fehler haben und uns auf sie vorbereiten.

Es gibt vier Arten von Fehlern in sprachgesteuerten Benutzeroberflächen:

Spracherkennung
Sprecheridentifikation
Kontextfehler
Systemfehler

Eine seiner Aussagen brachte seinen Vortrag auf den Punkt:
"Ich verwende ein Audiosignal und Sie rekonstruieren es - das ist, was ich gesagt habe und was Sie verstanden haben. Wir können anfangen, mehr und mehr an Erdung zu denken oder die gemeinsame Basis zu finden. Nennen wir es Erdungsstrategien und nicht Fehler."
Andrea Muttoni von Amazon gab uns einen Einblick in die Welt von Alexa, der Sprachassistentin von Amazon. Alexa ist überall! Man muss sich von der Vorstellung lösen, dass Alexa nur auf den Smart Speakern vorkommt. Mit den neuen Gadgets wie dem Ring (Echo Loop), den Alexa Buds oder den kürzlich vorgestellten Brillen ist Alexa nun überall. Als Beweis nannte er den Amazon Smart Oven, der sich ausgezeichnet zu verkaufen scheint. Ausserdem baut Amazon ein ähnliches Ökosystem auf, wie wir es von den Apps auf Mobiltelefonen kennen. Jetzt kann man mit Sprach-Apps Verkäufe tätigen und Geld verdienen. Aber wir stehen noch ganz am Anfang.

Tom Hewitson von labworks ist ein erfolgreicher und unabhängiger Entwickler von Sprachanwendungen. Er und sein Team entwickeln Voice-Apps auf eigene Rechnung und wollen mit In-App-Verkäufen Geld verdienen. Das erweist sich im Moment noch als schwierig. Er spricht darüber, was er in zwei Jahren Erfahrung mit Sprache gelernt hat:

"Wir geben den Leuten nicht genug Gründe, die Stimme zu benutzen."
"Es ist nicht so einfach, wie es klingt."
"Es ist gut möglich, dass niemand sieht, was du getan hast."
... sind in meinen Augen die drei wichtigsten.

Schlussfolgerung: Die All About Voice Konferenz ist eine sehr lehrreiche Konferenz. Die Szene ist überschaubar und doch sieht man schon, welche Fortschritte Voice gemacht hat. Wer sich frühzeitig mit dem Thema auseinandergesetzt hat, wird jetzt einen klaren Vorteil spüren. Man sieht, dass viele Unternehmen bereits über eine Voice-Strategie nachdenken und Erfahrungen mit ihren ersten Voice-Apps sammeln. Denn auch mit dieser Technologie braucht es Erfahrung und ein wenig Vorlaufzeit, um zumindest in einem grösseren Unternehmen etwas zu bewegen. Die Grundlagen, wie strukturierte Daten, sind nicht von heute auf morgen verfügbar. Sprachgesteuerte Benutzeroberflächen sind definitiv gekommen, um zu bleiben. Die Menschen akzeptieren sie, weil sie viele Dinge einfacher und schneller machen. Aber vor allem, weil die Sprache unsere angeborene Kommunikationsschnittstelle ist.

Markus Maurer