Praten met software

Als mensen iets goed kunnen, dan is het praten. Spraak is de meest natuurlijke interface en de mobiel is daarbij een handig hulpmiddel. De smartphone werkt ook goed voor andere communicatievormen; zo beginnen we de dag met het checken van WhatsApp, aldus het Nationaal E-mail Onderzoek 2015. Als we iets willen weten, kunnen we het ook aan onze smartphone vragen, via tekst of spraak. Praten we straks tegen medemensen of tegen technologie?

spraakgestuurdeIn mei van dit jaar maakte Google bekend dat het bedrijf voor het eerst meer zoekopdrachten had verwerkt van mensen die gebruik maken van een mobiel apparaat dan via een ‘vaste’ computer (laptop of desktop). De smartphone dringt steeds dieper door in ons leven. De meeste apps moeten we echter nog besturen met onze vingertoppen. De volgende stap is dat we van touch naar speech gaan – behalve in die situaties waarbij het ongewenst is dat je omgeving mee kan luisteren. Steeds meer apps zullen geïntegreerd worden in, of aangestuurd worden door een spraakgestuurde oplossing.

Gartner, altijd goed voor het aanwijzen van trends, had in 2013 nog redelijk hoge verwachtingen, maar in 2015 belandde ‘natural language question answering’ in de hype cycle in de fase van disillusionment. Toch staat in de top 10 strategische technologietrends voor 2016 Advanced Machine Learning voorop. Dat zou kunnen betekenen dat bestaande virtuele assistenten zoals Siri en Google Voice Search zich in de nabije toekomst verder ontwikkelen dan wat ze nu zijn: open vraag-spraakgestuurde zoekmachines. Siri en Google putten tot nu toe nog uit het internet als statische kennisbank. Beide assistenten maken geen combinaties van informatiebronnen (een belofte van zoekmachine Wolfram Alpha) of geven interpretaties; ze stellen weinig tot geen aanvullende vragen (zodat duidelijk wordt machine learning landscape spraakgestuurdeof je met 4×4 een terreinwagen of een rekensom bedoelt) en ze hebben evenmin oog voor je persoonlijke context (heb ik nog een zonnebril? – omdat je je zonnebril vergeten bent en niet weet of je nog ergens een tweede exemplaar hebt liggen, of omdat je überhaupt niet weet of je nog steeds de gelukkige bezitter bent van een zonnebril). Daarnaast moet spraaksoftware kunnen omgaan met storende factoren bij het verwerken van de spraakinput: omgevingslawaai, een gebrekkige uitspraak, emoties, accenten en dialecten. De speech-to-text-software van marktleider Nuance wordt pas goed bruikbaar als deze getraind is in het herkennen van de stem van de gebruiker. ‘Machine learning’ zit zelf voorlopig nog in de schoolbanken.

Voor optimale interactie met een kennissysteem via spraakherkenning is vooral enorme rekenkracht nodig. Die rekenkracht en de software voor spraakherkenning zelf zitten niet in onze smartphone. De spraakgestuurde assistenten van Google en Apple sturen de spraakopdracht rechtstreeks door naar hun eigen datacenter. Daar wordt de vraag omgezet in een zoekopdracht, die beantwoord wordt met relevante online bronnen: het weerbericht (moet ik een paraplu meenemen) of webpagina’s waar 4×4 in voorkomt (wat is een 4×4?). Siri geeft daarbij commentaar (het weer ziet er goed uit; dit is wat ik heb kunnen vinden over 4×4). Beide machines fungeren als bibliotheekmedewerker: ze hebben geen domeinkennis, maar weten je wel door te verwijzen naar de juiste bron. Als je vraag goed begrepen is tenminste.

Maar wanneer onze spraakopdrachten worden doorgestuurd naar een systeem dat gebouwd is om te leren, komen we een stuk verder. De toekomst ligt in het samenvoegen van taal en menselijke analyse enerzijds en neurosynaptische computerchips anderzijds. Of in normaal Nederlands: als we chips ontwerpen die net zo functioneren als het menselijk brein, dan kunnen systemen op een andere manier omgaan met data – namelijk niet langer beperkt door kracht en snelheid. Dat brengt het tijdperk van ‘intelligence amplification’ dichterbij. Lerende systemen zouden twee zwakheden moeten wegnemen: de kans op het verkeerd begrijpen van een vraag reduceren door controlevragen te stellen; en het loslaten van vooraf geprogrammeerde regels bij het samenstellen van een antwoord. Tot nu toe kunnen systemen alleen zonder vooraf opgestelde regels werken, als ze teruggrijpen op een andere houvast, namelijk kansberekening: ‘op basis van de input is dit naar alle waarschijnlijkheid het juiste antwoord’. Daarbij hebben systemen als voordeel dat ze zich niet laten leiden door ‘snelle eerste indrukken’ – waar professionals nog wel eens last van kunnen hebben. Dat is de kracht van kunstmatige systemen: ze gaan af op feiten, vooraf gedefinieerd door mensen, ze hebben echter geen smaak of opvatting.

Voorlopig moeten we het nog doen met ‘point solutions’. Nicky Hekster, IBM Watson ambassadeur, gaf tijdens Outsourcing Performance Day 2015 een update over Watson. Voorganger Deep Blue bevatte alle mogelijke schaakzetten en -strategieën en kon op basis van rekenkracht winnen van Kasparov, maar opvolger Watson heeft sinds het winnen van een ander spelletje (Jeopardy) enorme stappen gezet. Ook Watson is ooit begonnen als ultrasnelle zoekmachine – met een vaartje van 200 miljoen A4’tjes in een seconde. Dat is een nuttige vaardigheid, omdat mensen slecht zijn in het hergebruiken van beschikbare informatie. Dat speelt bijvoorbeeld in de gezondheidszorg, waar medische vragen beter kunnen worden beantwoord als historische gegevens over medicatie en alle artikelen uit medische leerboeken en tijdschriften worden meegenomen. Artsen die Watson gebruiken, krijgen zo kennis over zaken die ze nog niet wisten. Als Watson-principes gebruikt zouden worden door bedrijven, zouden bijvoorbeeld ook contactcenters er gebruik van kunnen maken om klanten van informatie te voorzien.

De techneuten van IBM hebben Watson in 2014 uitgerust met mogelijkheden op het vlak van creativiteit: onder meer via ChefWatson, waarbij Watson gevoed is met informatie over recepten, voedingswaarden, smaken en smaaksensaties. Met die gegevens is Watson in staat nieuwe, verrassende combinaties te maken die nieuwe smaakpatronen opleveren: denk aan een burrito met chocola, spruitjes met amandelen en zoete aardappels of Tiramisu met blauwe kaas. Dit wordt ook wel aangeduid als computational creativity, maar je zou het ook kunnen beschouwen als het presenteren van een lijstje (berekende) mogelijkheden die we nog niet kenden: het gaat niet om een beoordeling van smaak. Ook bij ChefWatson worden de (nieuwe) mogelijkheden nog steeds begrensd door een database en een set algoritmen. Desondanks heeft Chef-kok Onno Kokmeijer van Ciel Bleu, het sterrenrestaurant van het Amsterdamse Okura hotel, met Watson gewerkt en hij is enthousiast.

spraakgestuurde cognitoysEr is ook een Watson-variant voor kinderen in de maak, onder de nu nog tamelijk technische aanduiding Cognitoys. Kinderen in de basisschoolleeftijd kunnen vanaf november dit jaar een groene dinosaurus aanspreken en vragen stellen: denk aan ‘waarom is de lucht blauw’ of ‘wat is de afstand tot de maan’. De kennis van de dino – uiteraard speciaal afgestemd op kinderen – komt uit de cloud van Watson. Vanaf november in de winkels verkrijgbaar als de Kickstartercampagne goed afloopt. Wanneer Watson goed kan omgaan met het beantwoorden via spraak, komen we in de buurt van intelligence amplification. Technologie is dan geen hulpmiddel, maar een verlengstuk van ons brein geworden. Het probleem dat we niet weten hoe het antwoord tot stand komt (ook van toepassing bij zoekmachine Google) blijft echter onverminderd bestaan: wie heeft bepaald hoe de databases en de algoritmen zijn samengesteld?