Cloud: wegbereider voor spraakherkenning? -

IBM heeft besloten om superslimme computer Watson naar de cloud te verhuizen en zijn rekenkracht te verdubbelen, zo berichtte AG half januari. Hiermee wil IBM nieuwe mogelijkheden scheppen voor AI-as-a-service: kunstmatige intelligentie op afroep, bijvoorbeeld voor big data analyses en linguïstiek. Hoewel beide zaken weinig te maken hebben met AI – van klein denken is nog nooit iemand groot geworden, en van snel rekenen word je niet echt intelligenter – biedt de cloud wel een mooi platform om technologieën die rekenkracht en -snelheid nodig hebben een kans van slagen te bieden.

Vice president Stephen Gold, betrokken bij de Watson-activiteiten van IBM, voorspelt dat toekomstige generaties op 2013 zullen terugblikken als het jaar van ‘een monumentale verandering’. Hij doelt daarmee wellicht op de mogelijkheden van Watson op het gebied van verwerking van natuurlijke taal.

Het inzetten van natuurlijke taal in de automatisering wordt al enkele decennia gezien als een veelbelovende technologie. Zo ongeveer iedere vijf jaar werd door leveranciers, ontwikkelaars en goeroes geroepen dat de komende vijf jaar toegepaste technologieën zoals spraakherkenning zouden doorbreken. Maar spraaktechnologie is net zo breed inzetbaar als het jongere broertjes touch technologie. Soms is het handig om tegen apparaten te spreken, soms is het handiger te aan te raken. Spraaktechnologie is wel verbeterd door goedkopere en snellere rekenkracht en verder ontwikkelde software en er zijn meer succesvolle toepassingen ontstaan, waarvan Siri (geïntroduceerd in oktober 2011 op de iPhone 4S) en Glass mooie voorbeelden zijn. Maar om nu te zeggen dat spraakherkenning mainstream is sinds Siri? Ik mis daarvoor zowel de cijfers als de hype rondom het gebruik van Siri. Ook Google Glass, aangestuurd met basale commando’s, moet nog een hele weg afleggen. In het algemeen werkt spraakherkenning beter naarmate het systeem meer getraind is in het herkennen van een bepaalde stem (of bepaalde klanken). Systemen luisteren dus na verloop van tijd vooral goed naar hun baasje, maar zelfs marktleider Nuance heeft voor dat trainingsvraagstuk nog geen oplossing.

Een spraakherkenningssysteem werkt onder andere op basis van waarschijnlijkheid en die wordt steeds groter naarmate er meer data beschikbaar zijn om waarnemingen te vergelijken met opgeslagen kennis. In dit opzicht zou de cloud een belangrijke rol kunnen gaan spelen. Daarnaast is voor het kunnen werken met natuurlijke taal data over de context nodig. Ook hier kan de cloud meerwaarde bieden, want als er ergens ‘context’ beschikbaar is, dan is dat wel in de cloud, waar we doorlopend informatie in opslaan en van waaruit veel apps werken. Met behulp van een 4G verbinding zou Siri real time informatie kunnen ophalen uit de cloud, onder meer via anticiperende systemen als Google Now.

Wanneer gesteld wordt dat 2014 het jaar van de spraakherkenning wordt, heb ik zo mijn twijfels. Het zou ook zo maar 2015 of 2016 kunnen worden. Maar voor een geleidelijke doch stevige ontwikkeling van technologie en in praktische toepassingen is zo langzamerhand wel aan alle voorwaarden voldaan. Spraakherkenning heeft inmiddels een goed imago. Er ontstaan steeds meer devices die in specifieke omstandigheden goed met spraak zouden kunnen worden bediend. Steeds meer apparaten (wearables, maar ook ingebouwde systemen) zijn gemakkelijk te bedienen met spraak – en ook in professionele omgevingen leidt spraaktechnologie tot slimme oplossingen. Daarnaast groeit de behoefte aan nieuwe security-oplossingen op het gebied van identificatie en authenticatie, onder meer bij banken. Tot slot worden devices zoals tablets en smartphones zelf ook steeds krachtiger. De cloud als data hub tenslotte gaat wat mij betreft de doorslag geven.

Deze post is tot stand gekomen in samenwerking met de Zero Distance community en T-Systems