Wie heeft straks het beste spraakgestuurde platform?

Chatbots zijn dom, maar gelukkig is er de virtuele assistent. De komende tijd zal duidelijk worden welke spraakgestuurde diensten van Google, Microsoft, Apple en Amazon zich het snelst ontwikkelen tot het beste spraakgestuurde platform voor interacties en transacties. Die race is ook van belang voor zowel de ontwikkelaars als de gebruikers van chatbots: op welke ecosystemen haak je aan? 

Sinds de introductie van de computer zijn we ingesteld op tekst-gebaseerde interactie met die apparaten. Het meeste werk doen we nog steeds met een toetsenbord en een beeldscherm. Fans van spraaktechnologie blijven er op wijzen op dat spraak, ook bij systemen, de meest natuurlijke vorm van interactie is. Het herkennen van spraak is voor systemen inderdaad geen enkel probleem meer. Maar het verwerken van spraak, zodat een systeem de juiste dingen gaat doen, is nog altijd een uitdaging: begrip van context blijft een bottleneck. Met de opkomst van machine learning worden op dit vlak de eerste stappen gezet en dat leidt tot ‘slimmere’ toepassingen. Daardoor is spraakbesturing bezig met een stevige opmars, met name in China en in Angelsaksische landen.

De chatbot is een domme bureaucraat

Er is ook veel aandacht voor de opkomst van chatbots in Nederland. De meeste chatbots komen echter niet verder dan een vooraf geprogrammeerd vraag- en antwoordspel: als ze al goed bruikbaar zijn, heeft dat betrekking op een specifieke taak. Het probleem is dat die taak niet altijd vooraf duidelijk is. Een consument zal zo’n chatbot met duidelijke verwachtingen gebruiken (ik wil dat mijn probleem wordt opgelost) en als die niet worden ingelost, is de kans op frustratie groot. Bij virtuele assistenten speelt die concrete verwachting een minder grote rol: daar zijn de verwachtingen nauwelijks vooraf ingekaderd en zal de gebruiker doorlopend zoeken naar nieuwe gebruiksmogelijkheden. Door dat exploratieve karakter lijkt de opbouw van een relatie met een virtuele assistent het meest op hoe we menselijke relaties opbouwen: stap voor stap leer je elkaar kennen. De chatbot lijkt vanuit dit perspectief het meest op een bureaucraat die niet vanuit de klant denkt en doet. De best presterende virtuele assistent maakt echter kans om onze nieuwe huisgenoot te worden.

Wie wordt onze nieuwe huisgenoot?

Die rol als nieuwe huisgenoot is interessant voor de leverancier van de virtuele assistent. Interacties leiden tot een nieuwe datastroom, tot een mogelijkheid om informatie te verstrekken (en dus ook gekleurde informatie, zodat beslissingen kunnen worden beïnvloed) en tot het faciliteren van transacties. Kortom, spraakbesturing brengt consumenten naar een platform waar vragen en antwoorden tot allerlei soorten business kunnen leiden. Twee jaar geleden stelde Wired nog dat spraak het platform van de toekomst is en dat Alexa deze slag zal winnen. Het is de vraag of de voorsprong van Amazon op dit moment groot genoeg is.

De strijd lijkt vooral te gaan om Siri, Alexa en Google Home Assistant. Er zijn nog meer initiatieven, maar die lijken op dit moment weinig kansrijk. Microsoft kiest naar alle waarschijnlijkheid voor integratie met Alexa in plaats van het verder ontwikkelen van de eigen assistent Cortana, die niet beschikt over eigen hardware en ook nog niet in het Nederlands beschikbaar is. Samsung heeft tegelijk met de introductie van het S8-toestel een intelligent hulpje gelanceerd (Bixby), dat ook overweg kan met beeldherkenning. Bixby heeft een eigen aan/uit-knop die niet iedereen weet te waarderen. En tot slot is er nog Amelia, de bot van IPsoft, maar zij wordt overwegend ingezet in maatwerkoplossingen voor specifieke opdrachtgevers.

Van het drietal Siri, Alexa en Google is Alexa de enige die nog geen Nederlands begrijpt. Siri was weliswaar de eerste Nederlandstalige virtuele assistent en op ieder Apple device aanwezig, maar alleen met je stem te activeren als het apparaat aan een oplader ligt. Sinds juni is Siri ook aanspreekbaar via de eigen hardware, de HomePod. En sinds oktober begrijpt ook Google Home Assistant de Nederlandse taal.

Siri, Google en Alexa: vrienden onder elkaar

De drie lijken zich in ieder geval behoorlijk bewust van hun onderlinge aanwezigheid. Sterker nog, vraag aan Google Home Assistant iets over Alexa, Siri of Cortana (de virtuele assistent van Microsoft) en er komen gevatte antwoorden. Google Home over Cortana: “Cortana is slim en grappig en ik weet dat ze in Seatlle woont. Het is daar erg mooi.” Vraag of Google Home Assistant contact kan leggen met Alexa: “Die kan je wel om een boodschapje sturen”. Ook Alexa is gevat: ze kent zowel Siri als Google Home, maar “only by reputation”. Siri lijkt het meest contactgestoord. Op de vraag “Ken jij Cortana?” is het antwoord: “Oké, dit heb ik op het web gevonden over ‘Ken jij Cortana’”, gevolgd door een overzicht van websites op je scherm.

Platforms: kwestie van koppelen en aanhaken

Terug naar de platforms. De potentie van de virtuele assistenten wordt (naast de taal, voor Nederland niet vanzelfsprekend) primair bepaald door de koppelingen met aanvullende diensten.
De koppelingen met aanvullende diensten zijn er in twee soorten: configureerbare koppelingen met functies en services die de gebruiker zelf tot stand brengt (denk aan smart home functies zoals Philips Hue of services zoals Spotify) en standaard aanwezige koppelingen die op de achtergrond gemaakt zijn door de leverancier van de assistent (zoals Alexa met Amazon, of Google met de zoekmachine). Deze standaardkoppelingen kunnen betrekking hebben op relaties met externe partijen en op specifieke datasets. Soms ontbreken ogenschijnlijk vanzelfsprekend koppelingen (de assistenten vertellen je niet wat je geboortedatum is of je woonplaats als je ernaar vraagt) terwijl ze bij bepaalde vragen wel rekening houden met je locatie.

Een goed voorbeeld van de verschillen: “Wanneer is mijn verjaardag” leidt bij Alexa tot “currently this agenda query is not supported”, bij Google tot “ik kan voor je zingen als je me dat vraagt” en bij Siri tot “Dit heb ik op het web gevonden over ‘verjaardag’.”

Een tweede voorbeeld: de vraag aan Google “vertel eens iets” leidt tot de presentatie van willekeurige wetenswaardigheden (zoals: het eerste homohuwelijk werd in Nederland gesloten); “vertel eens iets over Mozart” levert echter geen reactie op. Omdat mijn Home Assistant gekoppeld is aan Spotify, levert het woord “Mozart” wel op dat er (zonder dat te vragen) een symfonie wordt afgespeeld. En het laatste voorbeeld: wanneer je aan Google Home vraagt ‘wat voor geluid maakt een hond’, kondigt Google aan “zo klinkt een hond” waarna geblaf klinkt. Alexa reageert niet op de vraag, maar laat wel het geluid van een blaffende hond horen. Siri is nog steeds tot niets anders in staat dan het presenteren van een webpagina.

Drie verschillende ontwikkelpaden

Maakt de virtuele assistent die het best presteert op het vlak van deze ogenschijnlijk vanzelfsprekende achtergrondkoppelingen de beste kansen? Hoe intelligenter die koppelingen, hoe meer dat toevoegt aan (basale) herkenning van de context. Hoe belangrijk die koppelingen zijn is duidelijk geworden door Siri. Hoewel met veel bombarie geïntroduceerd in 2011 (en pas in 2015 voor Nederlands), blijkt Siri tot op de dag van vandaag nog steeds primair neer te komen op een spraakgestuurde zoekmachine. Daarnaast kwam Apple pas deze zomer op de markt met de HomePod, die met een prijs van 349 dollar aanzienlijk duurder is dan de hardware van de andere assistenten en die meer bedoeld lijkt als ‘speaker’ dan als ‘slimme speaker’ – Siri is zoals gezegd nog relatief dom en biedt een zeer beperkt ecosysteem van services en functies.

virtuele assistent

Ook Cortana van Microsoft heeft op alle fronten nog flinke inhaalslagen te maken. Naar verluidt wordt door Microsoft wel geïnvesteerd in spraaktechnologie en in een eigen slimme speaker. Ook is Cortana beschikbaar gemaakt voor iOS, maar het ontbreekt aan een uitgebreid ecosysteem zoals bij Apple (met iTunes en een zeer uitgebreide app store). Microsoft beschikt evenmin over een zee aan data (zoals Google met de zoekmachine) of over een koppeling met een online retailer zoals bij Alexa. Alexa daarentegen is in eerste instantie als open ecosysteem gepresenteerd: iedere developer kan skills toevoegen. Daarnaast stelt Amazon de spraakbesturingstechnologie beschikbaar aan andere producenten van bijvoorbeeld huishoudelijke en industriële apparatuur of auto’s. En uiteraard is Alexa gekoppeld aan Amazon, een van de grootste webwinkels ter wereld.

virtuele assistent

De beste assistent komt zelf met suggesties

Zijn die voordelen voldoende om van Alexa het dominante platform te maken? Dat is de vraag, want het ontsluiten en herkennen van de skills die Alexa in huis heeft (tot nu toe duizenden) is nog een uitdaging. Alexa wijst de gebruiker niet uit zichzelf op nieuwe skills of services. Hoe kom je erachter dat je assistent goed kan samenwerken met je bank-app? Wanneer is je assistent in staat om proactief een voorstel aan je doen om een financieel probleem voor je oplossen – bijvoorbeeld je huishoudrekening aanvullen vanuit je spaarrekening? Dit hangt ook af van het vermogen van assistenten om een langere dialoog te voeren en uit die dialoog bijvoorbeeld nieuwe behoeften te destilleren, zodat de assistent zelf – dus in een dialoog met de gebruiker – met suggesties kan komen: gebruik deze skills eens, of zal ik een koppeling maken met deze dienst? Precies dit is waar zowel Amazon als de bedrijven die op het platform willen aanhaken, mee aan de slag moeten.

Ecosysteem met naadloze integraties

virtuele assistentOok Google werkt aan het opbouwen van een ecosysteem. Daarbij lijkt extra aandacht uit te gaan naar de gebruiker van de assistent door de integratie van chatbots. Met het commando ‘hey google, ik wil met KLM praten’ wordt de conversatie die je met Google Home Assistant voert, overgenomen door Blue Bot. Blue Bot is de virtuele assistent van KLM die je kan helpen bij het boeken van een reis en het inpakken van je koffer. Vertel Blue Bot waar je naar toegaat (New York) en de assistent vertelt je onder meer dat je een visum nodig hebt. Maar als je wil weten hoe je dat visum kunt krijgen, wordt het stil. Ook is Blue Bot niet in staat die vraag weer ‘terug te geven’ aan Google Home Assistant, waarvan je zou verwachten dat die wel een advies heeft. En tot slot klinkt de stem van Blue Bot een stuk ‘mechanischer’ dan Google Home Assistant. Blijkbaar heeft KLM gekozen voor verouderde natural speech generator-software.

virtuele assistent
click to play video
Een soepele conversatie

Op vergelijkbare wijze kan de Google Home Assistant je in contact brengen met de bot van bol.com of de bot van Albert Heijn (‘Appie’): ‘Hey Google, ik wil graag praten met…’. Bij Appie kan je wel bestellingen op je lijstje toevoegen, maar nog niet shoppen zoals Amazon via Alexa. De bot van bol.com ‘kent de catalogus nog niet uit het hoofd’. Dat zal vast niet lang meer duren, de hardware van Google is in ieder geval al wel verkrijgbaar bij Albert Heijn.

Kortom, ontwikkelaars van chatbots (én hun klanten) doen er goed aan, na te denken over de vraag met welke ecosysteem zij gaan koppelen. Het lijkt er op dat zowel Apple als Microsoft last hebben van hun eigen besturingssysteem, terwijl Google en Amazon op dit vlak ‘agnostisch’ zijn. Daarnaast is van belang op welke manier ontwikkelaars aanhaken op een ecosysteem: via skills en services of via de meer intuïtieve handover waarbij de gesproken dialoog van de ene naar de andere bot wordt ‘overgedragen’ zoals bij KLM? Want vermoedelijk gaat ook in de spraakbesturing de kwaliteit van de customer journey van grote invloed zijn op het succes van chatbots en virtuele assistenten. En last nut not least levert aanhaken op een spraakgestuurd platform weer nieuwe vraagstukken op voor bedrijven: wat gaan ze regelen op het vlak van privacy en security?

Wachten op kunstmatige intelligentie die context begrijpt

De afgelopen twee jaar zijn zowel spraakherkenning als spraaksynthese enorm verbeterd. Ook het aanbod aan spraakgestuurde systemen, dat twee jaar geleden nog werd gedomineerd door Siri, Cortana en Google Assistant, heeft zich verder ontwikkeld: zo is in twee jaar tijd Amazon’s Alexa marktleider geworden. Het enige wat nog ontbreekt is begrip van de context – een absolute voorwaarde om spraakbesturing echt tot een leidende technologie te maken. Een update over chatbots en virtuele assistenten.

Spraakherkenning heeft een nauwkeurigheid bereikt waarbij het verschil met mensen grotendeels is weggevallen. De Chinees-Engelse vertaalmachine iFlytek maakt minder dan 2 procent fouten, mede dankzij de 4,5 miljard spraakfiles die per dag aan het systeem worden toegevoegd. iFlytek is een startup uit 1999, opgezet door een doctoraalstudent van een regionale universiteit in Hefei, China. Ook Google haalt met gemak 95 procent. Maar de grootste stap voor spraaktechnologie moet nog gezet worden. En dat is de stap naar grootschalige toepassing door consumenten, bijvoorbeeld door het gebruik van virtuele assistenten.

Ecosystemen in aanbouw

Hoewel drie van de vier platformen (Siri, Cortana en Google Assistant) al enige tijd aanwezig zijn, heeft met name de komst van Amazons Alexa voor een versnelling gezorgd. In de consumentenmarkt is zichtbaar dat de ecosystemen rondom de spraakassistenten groeien. Amazon’s Alexa werkt naadloos samen met andere hardware (denk aan Sonos of Hue), met online contentplatformen zoals Spotify en met digitale platformen zoals IFTTT. Naast de samenwerkingsverbanden met hardwareproducenten (waarmee ongemerkt het Internet of Things tot stand komt) kennen de assistenten ook ‘skills’ (Alexa) of ‘actions’ (Google) – geautomatiseerde interacties die met een druk op de knop aangezet kunnen worden. Zo kan Alexa op verzoek boeren laten of zelfs een boerwedstrijd organiseren, maar er zijn ook nuttiger skills zoals ‘find my phone’. Ook de concurrenten van Amazon werken ondertussen hard aan hun eigen ecosystemen, maar Amazon heeft met de meeste skills een voorsprong.

Goed in spraakverwarring

Deze ontwikkelingen wekken de indruk dat spraakgestuurde interacties met systemen goed verlopen, maar de werkelijkheid is anders. Google, Alexa of Siri missen nog steeds de intelligentie om de context te begrijpen, wat zichtbaar wordt in een demo waarbij Google, Alexa en Siri elkaar niet herkennen als ‘collega’s’ en evenmin begrijpen dat ze bij hun groepsgesprek in een oneindige loop belanden. Daar staat tegenover dat spraakassistenten er prima in slagen om onderling volkomen abstracte dialogen aan te gaan. Ook het geven van gevatte antwoorden op lastige vragen (de zogenaamde easter eggs) is voor de meeste systemen geen probleem. De assistenten gaan ook de mist in als ze moeten luisteren terwijl mensen door elkaar (of door muziek) heen praten. Zo is Alexa uitstekend in staat om op verzoek een specifieke Spotifytrack af te spelen, maar is ze tijdens dat afspelen wel slechthorend: wil je Alexa vragen naar het volgende nummer te zappen, dan moet je je stem verheffen.

Hardware gedreven

Anders dan Alexa zijn Siri en Google ingebouwd in smartphones, tablets en pc’s en dat zou een voordeel kunnen zijn, ware het niet dat Siri op je mobiele device niet met spraak geactiveerd kan worden. Siri’s spraak klinkt bovendien minder goed dan die van Alexa (dat kan verklaard worden doordat Alexa zich tot de grotere talen beperkt terwijl Siri ook Nederlands spreekt). Siri heeft daarnaast de sterke neiging om als respons op een vraag met een webpagina te komen – begrijpelijk omdat Siri deel uitmaakt van apparaten met een scherm. Het verschil tussen Siri en Alexa komt ook op een andere manier tot uiting: Alexa is (als los apparaat) een verkoop-hit, terwijl Siri ‘ontdekt’ moet worden in een Apple device.

amazon installed base and skills

Hooggespannen verwachtingen

Of het nu met of zonder spraak is, de verwachtingen ten aanzien van geautomatiseerde dialogen zijn enorm. Capgemini verwacht dat de spraak-assistent in retail de komende drie jaar een ‘dominante factor’ wordt in de klantinteractie. De verwachtingen zijn hooggespannen en leiden dan ook tot hysterische uitspraken als “Klanten die een spraakgestuurde assistent gebruiken, zijn bovendien bereid om tot 500% meer uit te geven dan tot nu toe het geval is via deze vorm van interactie.” Die hooggespannen verwachting is vooral gebaseerd op voorkeuren van consumenten en dus niet op gedrag: grofweg een kwart (24%) van de respondenten gebruikt tegenwoordig liever een spraakgestuurde assistent dan een website, aldus de onderzoekers. De komende drie jaar zal dit percentage stijgen tot 40%. Cap brengt de toename in het verwachte gebruik van spraakassistenten direct in verband met een verdere daling van het bezoek aan winkels. Met een spraak-assistent kan je immers online aankopen doen – het is online shoppen, maar dan spraakgestuurd. Volgens Cap gebruikt op dit moment een derde van de respondenten (35%) spraakgestuurde assistenten voor het doen van boodschappen en de aanschaf van huishoudelijke artikelen of kleding. Andere populaire uitgaven zijn het bestellen van een maaltijd (34%) en het doen van betalingen (28%).

Bankkantoor vervangen door chatbot

De hype rondom chatbots en virtuele assistenten moet met de nodige relativering moet worden bekeken. In Zweden hebben de grootste banken hun kantorennetwerk uitgedund en ingezet op chatbots. Hoe blij consumenten ook zijn met de mogelijkheden rondom selfservice en online bankieren, in Zweden was het eindresultaat in ieder geval niet dat de klanttevredenheid toenam. Het kunnen identificeren van de klant, het begrijpen van de vraag en het herkennen van emoties is allemaal mogelijk, maar niet voldoende.

swedish banks swedish banks

Het aangaan van een volwaardige, dus betekenisvolle dialoog blijft namelijk nog een hele uitdaging. Allereerst: het enige verschil tussen spraakgestuurde assistenten zoals Siri en Alexa en een chatbot is dat de chatbot tekstgebaseerd werkt – de vertaalslag van spraak naar tekst blijft achterwege. In het bedrijfsleven wordt al gesproken over conversational service en conversational commerce, maar chatbots zijn nog niet in staat tot een dialoog.

Chatbots zijn nog behoorlijk dom

De intelligentie beperkt zich tot het begrijpen van de ingevoerde vraag en het genereren van het bijbehorende standaardantwoord (eventueel voorzien van klantgerelateerde gegevens die uit systemen worden opgehaald, denk aan boekingen of bestellingen). Zelfs chatbots die verder doorontwikkeld zijn, zoals Mitsuku, lopen gemakkelijk vast (of eindigen met standaardantwoorden) omdat ze niet met context kunnen omgaan. Een goed voorbeeld van gebrek aan intelligentie is de chatbot van Transavia, die via Facebook Messenger aangeeft dat je ‘direct kunt starten’. Als je een vraag intikt in het Nederlands, komt er eerst een vraag in welke taal je wilt communiceren. Als je geen antwoord geeft, komt de chatbot ook niet met eigen initiatief; als je een ticket naar NYC vraagt, laat de reactie zien hoe de bot werkt.

chatbot chatbot

Chatbots en virtuele assistenten kunnen nog niet anticiperen, ze kunnen niet creatief denken, niet zelf bepalen uit welke systemen ze welke informatie moeten halen, niet bepalen welke controlevragen ze moeten stellen in welke situatie. Soms is het zelfs nodig om te weten wie (in een bepaalde ruimte met meerdere sprekers) iets zegt.

alexa

Wachten op contextgevoelige AI

Kortom, bots missen het vermogen om context te kunnen begrijpen. Context is ook het tussen de regels door kunnen lezen en het kunnen combineren van eerder vergaarde kennis of elders aanwezige kennis of informatie. Veel van die informatie is wel beschikbaar, maar niet gemakkelijk te vinden, laat staan bruikbaar. Aan een klant vragen of het hotel kindvriendelijk moet zijn heeft geen zin als de chatbot had kunnen weten dat de klant geen kinderen heeft: bijvoorbeeld uit een eerdere conversatie of uit klantgegevens. De vraag ‘wie van mijn vrienden is wel eens op Corsica geweest?’ is bijvoorbeeld te beantwoorden met een check van Facebook, maar de kans dat op deze manier een sluitend en correct antwoord wordt gevonden, is niet zo groot. De ontwikkelaars van Ally Assist van Ally Bank hebben wel geprobeerd toe te werken naar een ‘gecontextualiseerde user experience’. Klanten van de Ally Bank hebben de optie om te chatten of te spreken en Ally Assist houdt rekening met eerdere interacties. De assistent onthoudt eerdere vragen (en antwoorden) en presenteert informatie op maat. Zelfstandige virtuele agents zoals Alexa moeten het doen met een internetverbinding en de opgeslagen dialoog. Alexa is bijvoorbeeld niet in staat om als stand alone oplossing aan technische trouble shooting te doen.

Context: grote technologie-uitdaging

Het is vooral deze veelheid aan context die gedurende een conversatie kan veranderen die het lastig maakt: in welke systemen moet de chatbot zoeken? Omgekeerd geldt voorlopig de wet dat een chatbot beter is in zijn taak als dat een gespecialiseerde taak is.

Het betekent ook dat we de komende jaren veelvuldig te maken zullen krijgen met chatbots en virtuele assistenten die ons proberen te helpen, maar daar volstrekt in falen. Daarom is dit artikel van Arjan van Hessen (Telecats/TU Twente) relevant: hij vraagt zich af of het niet tijd wordt voor fatsoensregels voor onze omgang met virtuele assistenten. Alexa kan je het zwijgen opleggen door te zeggen ‘Alexa, stop’, maar ‘Alexa, shut up’ werkt even goed. Hoe weinig ontwikkeld ze ook zijn, we kunnen de assistenten en bots op dit moment wel degelijk beschouwen als een soort robots waar we in de toekomst nauw mee gaan samenwerken, -wonen en –leven.

context