Wachten op kunstmatige intelligentie die context begrijpt

De afgelopen twee jaar zijn zowel spraakherkenning als spraaksynthese enorm verbeterd. Ook het aanbod aan spraakgestuurde systemen, dat twee jaar geleden nog werd gedomineerd door Siri, Cortana en Google Assistant, heeft zich verder ontwikkeld: zo is in twee jaar tijd Amazon’s Alexa marktleider geworden. Het enige wat nog ontbreekt is begrip van de context – een absolute voorwaarde om spraakbesturing echt tot een leidende technologie te maken. Een update over chatbots en virtuele assistenten.

Spraakherkenning heeft een nauwkeurigheid bereikt waarbij het verschil met mensen grotendeels is weggevallen. De Chinees-Engelse vertaalmachine iFlytek maakt minder dan 2 procent fouten, mede dankzij de 4,5 miljard spraakfiles die per dag aan het systeem worden toegevoegd. iFlytek is een startup uit 1999, opgezet door een doctoraalstudent van een regionale universiteit in Hefei, China. Ook Google haalt met gemak 95 procent. Maar de grootste stap voor spraaktechnologie moet nog gezet worden. En dat is de stap naar grootschalige toepassing door consumenten, bijvoorbeeld door het gebruik van virtuele assistenten.

Ecosystemen in aanbouw

Hoewel drie van de vier platformen (Siri, Cortana en Google Assistant) al enige tijd aanwezig zijn, heeft met name de komst van Amazons Alexa voor een versnelling gezorgd. In de consumentenmarkt is zichtbaar dat de ecosystemen rondom de spraakassistenten groeien. Amazon’s Alexa werkt naadloos samen met andere hardware (denk aan Sonos of Hue), met online contentplatformen zoals Spotify en met digitale platformen zoals IFTTT. Naast de samenwerkingsverbanden met hardwareproducenten (waarmee ongemerkt het Internet of Things tot stand komt) kennen de assistenten ook ‘skills’ (Alexa) of ‘actions’ (Google) – geautomatiseerde interacties die met een druk op de knop aangezet kunnen worden. Zo kan Alexa op verzoek boeren laten of zelfs een boerwedstrijd organiseren, maar er zijn ook nuttiger skills zoals ‘find my phone’. Ook de concurrenten van Amazon werken ondertussen hard aan hun eigen ecosystemen, maar Amazon heeft met de meeste skills een voorsprong.

Goed in spraakverwarring

Deze ontwikkelingen wekken de indruk dat spraakgestuurde interacties met systemen goed verlopen, maar de werkelijkheid is anders. Google, Alexa of Siri missen nog steeds de intelligentie om de context te begrijpen, wat zichtbaar wordt in een demo waarbij Google, Alexa en Siri elkaar niet herkennen als ‘collega’s’ en evenmin begrijpen dat ze bij hun groepsgesprek in een oneindige loop belanden. Daar staat tegenover dat spraakassistenten er prima in slagen om onderling volkomen abstracte dialogen aan te gaan. Ook het geven van gevatte antwoorden op lastige vragen (de zogenaamde easter eggs) is voor de meeste systemen geen probleem. De assistenten gaan ook de mist in als ze moeten luisteren terwijl mensen door elkaar (of door muziek) heen praten. Zo is Alexa uitstekend in staat om op verzoek een specifieke Spotifytrack af te spelen, maar is ze tijdens dat afspelen wel slechthorend: wil je Alexa vragen naar het volgende nummer te zappen, dan moet je je stem verheffen.

Hardware gedreven

Anders dan Alexa zijn Siri en Google ingebouwd in smartphones, tablets en pc’s en dat zou een voordeel kunnen zijn, ware het niet dat Siri op je mobiele device niet met spraak geactiveerd kan worden. Siri’s spraak klinkt bovendien minder goed dan die van Alexa (dat kan verklaard worden doordat Alexa zich tot de grotere talen beperkt terwijl Siri ook Nederlands spreekt). Siri heeft daarnaast de sterke neiging om als respons op een vraag met een webpagina te komen – begrijpelijk omdat Siri deel uitmaakt van apparaten met een scherm. Het verschil tussen Siri en Alexa komt ook op een andere manier tot uiting: Alexa is (als los apparaat) een verkoop-hit, terwijl Siri ‘ontdekt’ moet worden in een Apple device.

amazon installed base and skills

Hooggespannen verwachtingen

Of het nu met of zonder spraak is, de verwachtingen ten aanzien van geautomatiseerde dialogen zijn enorm. Capgemini verwacht dat de spraak-assistent in retail de komende drie jaar een ‘dominante factor’ wordt in de klantinteractie. De verwachtingen zijn hooggespannen en leiden dan ook tot hysterische uitspraken als “Klanten die een spraakgestuurde assistent gebruiken, zijn bovendien bereid om tot 500% meer uit te geven dan tot nu toe het geval is via deze vorm van interactie.” Die hooggespannen verwachting is vooral gebaseerd op voorkeuren van consumenten en dus niet op gedrag: grofweg een kwart (24%) van de respondenten gebruikt tegenwoordig liever een spraakgestuurde assistent dan een website, aldus de onderzoekers. De komende drie jaar zal dit percentage stijgen tot 40%. Cap brengt de toename in het verwachte gebruik van spraakassistenten direct in verband met een verdere daling van het bezoek aan winkels. Met een spraak-assistent kan je immers online aankopen doen – het is online shoppen, maar dan spraakgestuurd. Volgens Cap gebruikt op dit moment een derde van de respondenten (35%) spraakgestuurde assistenten voor het doen van boodschappen en de aanschaf van huishoudelijke artikelen of kleding. Andere populaire uitgaven zijn het bestellen van een maaltijd (34%) en het doen van betalingen (28%).

Bankkantoor vervangen door chatbot

De hype rondom chatbots en virtuele assistenten moet met de nodige relativering moet worden bekeken. In Zweden hebben de grootste banken hun kantorennetwerk uitgedund en ingezet op chatbots. Hoe blij consumenten ook zijn met de mogelijkheden rondom selfservice en online bankieren, in Zweden was het eindresultaat in ieder geval niet dat de klanttevredenheid toenam. Het kunnen identificeren van de klant, het begrijpen van de vraag en het herkennen van emoties is allemaal mogelijk, maar niet voldoende.

swedish banks swedish banks

Het aangaan van een volwaardige, dus betekenisvolle dialoog blijft namelijk nog een hele uitdaging. Allereerst: het enige verschil tussen spraakgestuurde assistenten zoals Siri en Alexa en een chatbot is dat de chatbot tekstgebaseerd werkt – de vertaalslag van spraak naar tekst blijft achterwege. In het bedrijfsleven wordt al gesproken over conversational service en conversational commerce, maar chatbots zijn nog niet in staat tot een dialoog.

Chatbots zijn nog behoorlijk dom

De intelligentie beperkt zich tot het begrijpen van de ingevoerde vraag en het genereren van het bijbehorende standaardantwoord (eventueel voorzien van klantgerelateerde gegevens die uit systemen worden opgehaald, denk aan boekingen of bestellingen). Zelfs chatbots die verder doorontwikkeld zijn, zoals Mitsuku, lopen gemakkelijk vast (of eindigen met standaardantwoorden) omdat ze niet met context kunnen omgaan. Een goed voorbeeld van gebrek aan intelligentie is de chatbot van Transavia, die via Facebook Messenger aangeeft dat je ‘direct kunt starten’. Als je een vraag intikt in het Nederlands, komt er eerst een vraag in welke taal je wilt communiceren. Als je geen antwoord geeft, komt de chatbot ook niet met eigen initiatief; als je een ticket naar NYC vraagt, laat de reactie zien hoe de bot werkt.

chatbot chatbot

Chatbots en virtuele assistenten kunnen nog niet anticiperen, ze kunnen niet creatief denken, niet zelf bepalen uit welke systemen ze welke informatie moeten halen, niet bepalen welke controlevragen ze moeten stellen in welke situatie. Soms is het zelfs nodig om te weten wie (in een bepaalde ruimte met meerdere sprekers) iets zegt.

alexa

Wachten op contextgevoelige AI

Kortom, bots missen het vermogen om context te kunnen begrijpen. Context is ook het tussen de regels door kunnen lezen en het kunnen combineren van eerder vergaarde kennis of elders aanwezige kennis of informatie. Veel van die informatie is wel beschikbaar, maar niet gemakkelijk te vinden, laat staan bruikbaar. Aan een klant vragen of het hotel kindvriendelijk moet zijn heeft geen zin als de chatbot had kunnen weten dat de klant geen kinderen heeft: bijvoorbeeld uit een eerdere conversatie of uit klantgegevens. De vraag ‘wie van mijn vrienden is wel eens op Corsica geweest?’ is bijvoorbeeld te beantwoorden met een check van Facebook, maar de kans dat op deze manier een sluitend en correct antwoord wordt gevonden, is niet zo groot. De ontwikkelaars van Ally Assist van Ally Bank hebben wel geprobeerd toe te werken naar een ‘gecontextualiseerde user experience’. Klanten van de Ally Bank hebben de optie om te chatten of te spreken en Ally Assist houdt rekening met eerdere interacties. De assistent onthoudt eerdere vragen (en antwoorden) en presenteert informatie op maat. Zelfstandige virtuele agents zoals Alexa moeten het doen met een internetverbinding en de opgeslagen dialoog. Alexa is bijvoorbeeld niet in staat om als stand alone oplossing aan technische trouble shooting te doen.

Context: grote technologie-uitdaging

Het is vooral deze veelheid aan context die gedurende een conversatie kan veranderen die het lastig maakt: in welke systemen moet de chatbot zoeken? Omgekeerd geldt voorlopig de wet dat een chatbot beter is in zijn taak als dat een gespecialiseerde taak is.

Het betekent ook dat we de komende jaren veelvuldig te maken zullen krijgen met chatbots en virtuele assistenten die ons proberen te helpen, maar daar volstrekt in falen. Daarom is dit artikel van Arjan van Hessen (Telecats/TU Twente) relevant: hij vraagt zich af of het niet tijd wordt voor fatsoensregels voor onze omgang met virtuele assistenten. Alexa kan je het zwijgen opleggen door te zeggen ‘Alexa, stop’, maar ‘Alexa, shut up’ werkt even goed. Hoe weinig ontwikkeld ze ook zijn, we kunnen de assistenten en bots op dit moment wel degelijk beschouwen als een soort robots waar we in de toekomst nauw mee gaan samenwerken, -wonen en –leven.

context

Wat is de beste interface voor het smart home?

Volgens IMS Research zullen er in 2020 meer dan 22 miljard connected devices zijn. Het internet of things wint aan toepassingsmogelijkheden als het energieverbruik van sensors verminderd kan worden en de chips kleiner worden. Ook het smart home krijgt dan een kans. Maar wat is de meest handige interface? Gaan we nog meer doen met onze mobiel of wordt het tijd voor een tweede interface? Dat laatste levert alle kansen op voor de smart watch fabrikanten.

2567381831G Switch
Wandschakelaar met Zigbee chip

Zigbee-chips van GreenPeak kunnen meten en zenden (‘sentrollers’). De Zigbee-chips wisselen data uit met controller-units op basis van radiosignalen. Ze kunnen overal worden ingebouwd, want ze zijn klein, energiezuinig en werken over een afstand die vergelijkbaar is met Wi-Fi. De signalen kunnen worden opgepikt door een centrale unit (bijvoorbeeld de settopbox, die steeds vaker de internet gateway vormt). Vanaf daar kunnen andere apparaten aanhaken via Wi-Fi, zoals laptops, tablets en smartphones. GreenPeak zet zwaar in op het smart home. Waar we nu nog een stuk of tien connected apparaten hebben, zit ons huis straks vol met sentrollers. Hoe gaan we dat allemaal bedienen?

Het besturen van functies in een smart home via de smartphone, een tablet of een pc roept vragen op. Om het smart home geaccepteerd te krijgen is het een voorwaarde dat we niet overspoeld worden door chips, apparaten en apps om alles in de gaten te houden en aan te sturen. De data die verzameld worden, lenen zich prima om geautomatiseerd (en met enige intelligentie) verwerkt te worden. Als er niemand in huis is (te bepalen door een bewegingssensor in combinatie met slotgegevens of geo-locatie van alle bewoners) kan de verwarming worden uitgeschakeld, maar als een van de bewoners vanaf kantoor met zijn vervoermiddel vertrekt met bestemming ‘thuis’, zou de kachel al vast in bepaalde ruimtes kunnen worden ingeschakeld – mits de temperatuur daar om vraagt. Wanneer je door het huis beweegt, kan de verlichting daarop reageren – maar met de nodige intelligentie moet een systeem een geheel andere actie kunnen ondernemen indien het alarmsysteem aan staat.

Gaan we het smart home bedienen vanaf de smartphone of de tablet? Het touch screen biedt mogelijkheden voor het werken met plattegronden en 3D weergaven. Maar waarschijnlijk is het aansturen van functies in een smart home gemakkelijker via spraak. Dat biedt kansen voor Siri, maar ook voor de smartwatch. Voor het geven van gesproken commando’s is een horloge namelijk een stuk handiger dan een smartphone: klein en altijd direct binnen handbereik zonder dat je hoeft te zoeken. En een smartwatch kan je commando’s opvangen terwijl je op hetzelfde moment iets anders doet met je smartphone. Dat biedt kansen voor de wederopstanding van het horloge, dat de laatste jaren van overbodig gebruiksvoorwerp is veranderd in een al even overbodig sieraad.

7896bd21ae8ea94ce076bcf7e58a6747_largeJe zou verwachten dat fabrikanten van smartwatches hierop aanhaken, zoals de Galaxy Gear, de Sony Smart Watch, de CUBIT (niet voor de pols bedoeld) en de Pebble. Maar de smartwatches die nu ontwikkeld worden, zijn vooral bedoeld als verlengstuk van een smartphone en sturen hoofdzakelijk notificaties door van (en naar) apps die op de smartphone staan. Alleen Apple zou met de iWatch (die nog op de markt moet komen) nadrukkelijk inzetten op besturing van elektronica in woonkamer ofwel domotica. Zo zouden bijvoorbeeld de verwarming, airconditioning, lichten, audio en video kunnen worden bediend.

De smart home app zal vermoedelijk op de smartphone belanden, maar ik voorspel dat de besturing van de app via een smartwatch verloopt. Daarmee verdienen de bedenkers van Knight Rider (“Follow that car, Kit”) alsnog de titel ‘visionair’.