Stem vervangt werken met onze handen

Zinvolle gesprekken met computers leken lange tijd ondenkbaar. Nu echter steeds meer computers en mobiele apparaten handsfree te gebruiken zijn, komt het steeds vaker voor. De primaire manier van communiceren met apparaten wordt daardoor verlegd van manuele invoer naar spraakbesturing. De toekomst van deze handsfree mens-machine-interface hangt daarbij wel af van hoe goed de apparaten worden in het begrijpen van menselijke spraak, inclusief alle fouten, pauzes en accenten.

In de toekomst zijn er meerdere manieren waarop mensen hun stem kunnen gebruiken om te communiceren van computers. Dat is nodig, want taal is erg dynamisch met complexe eigenschappen zoals accenten en intonatie. Daar komt nog eens bij dat iedereen met andere volumes en toonhoogtes spreekt. Dat is dus een enorm verschil met bijvoorbeeld het gebruik van een muis om computers aan te sturen: een druk op de knop kan immers niet anders worden geïnterpreteerd dan zoals deze is bedoeld. Met het interpreteren van gesproken taal wordt het computers dan ook lastig gemaakt, omdat er veel meer zaken zijn om rekening mee te houden. Toch schrikt die moeilijkheid de ontwikkelaars niet af, want zij zetten steeds meer in op deze technologie.

Opkomst van digitale assistenten

Digitale assistenten zoals Alexa, Siri, Cortana en Google Assistant en vele andere laten een toekomst zien waarin het fysieke scherm als een computer-interface kan worden geëlimineerd, omdat de stem het centrale interface-mechanisme wordt. Dat wil niet zeggen dat de invoer van data niet meer nodig is om de digitale assistent aan te sturen. Cortana struint bijvoorbeeld door e-mails en agenda’s van de werknemers om hen beter te begrijpen. Met de Microsoft Office 365 clouddienst krijgt Cortana zelfs de mogelijkheid om relevante documenten te zoeken en te vinden. Sommige reuzen in de bankwereld, zoals Visa en Fargo Wells, zijn ook bezig om oplossingen te ontwikkelen met spraakherkenning en biometrische identificatie. Met de stem kunnen dan bepaalde financiële transacties worden gemaakt.

Het lijkt erop dat mensen de computer simpelweg kunnen besturen door het gebruiken van hun stem, terwijl ze doorgaan met hun andere taken. Maar dit brengt wel een aantal beveiligingsrisico’s met zich mee. Zo kan bijvoorbeeld zelfs zachte verbale communicatie worden afgeluisterd door derden. Kwaadwillenden kunnen bovendien de stem van anderen imiteren om gegevens te stelen. Dit betekent dat spraakbesturing niet alleen nieuwe functionaliteiten en voordelen biedt, maar ook een bedreiging kan zijn voor de privacy en geheimhouding.

Heilige graal heet multi-threading

Het is de vraag hoe bedrijven deze veiligheidsrisico’s zo goed mogelijk kunnen afdichten, maar het is duidelijk dat er een gouden toekomst gloort voor kunstmatige intelligentie en spraakbesturing. Apparaten of oplossingen die in staat zijn om meerdere situaties te herinneren (multi-treaded), zijn de sleutel om de gesprekken met digitale assistenten te verbeteren. Bij huidige oplossingen moet een gebruiker meestal een actie afmaken voordat hij een nieuwe start, maar bij spraakbesturing is dat anders. Hoe vaak heeft een gesprek immers een duidelijk einde? Je zegt in het echte leven (behalve bij portofoon-communicatie) ook niet ‘dit was het gesprek’. Maar hoe moet een computer dan weten wanneer het gesprek is afgelopen?

Om dat probleem op te lossen, werken ingenieurs momenteel aan meer flexibiliteit voor apparaten, zodat deze spraak én tekst als interface kunnen gebruiken. Spraakbesturing kan dan een goede oplossing zijn in een privé-setting, zoals in een afgesloten ruimte, de auto of thuis wanneer mensen flexibel willen werken. In een druk kantoor kiezen ze dan misschien liever voor tekst als interface.

Kunstmatige intelligentie

Naast multi-threading werken de knappe koppen in de software-sector ook hard aan het integreren van kunstmatige intelligentie in diverse systemen en bots. Dat is een uitdagende taak. Kunstmatige intelligentie is nu beperkt tot het verwerken van natuurlijke taal en een aantal basisvaardigheden zoals het weer, verkeer en vragen over de inventaris van een bedrijf. Vraag je digitale assistent op je mobiel wat voor weer het is en je krijgt het weerbericht, maar het is nog een brug te ver om te vragen wat voor kleren je bijvoorbeeld die dag aan moet, zodat je bent voorbereid op dat weer.

Als mensen zinvoller willen communiceren met een bot, moet die bot slimmer zijn: de digitale assistent moet proactiever en intuïtiever zijn. De bots moeten de persoon met wie ze communiceren, leren kennen. De bot moet de persoonlijke voorkeuren en het gedrag kennen om te kunnen anticiperen en wijzen op een mogelijke behoefte. Zonder dit ‘leren’ kan de bot geen zinvol tweerichtingsgesprek voeren.

Hoewel een mens in het begin erg vergevingsgezind kan zijn als een bot het niet goed begrijpt, kan dat een grote bron van frustratie worden als het keer op keer niet goed gaat. Ze verwachten dat bots zichzelf verbeteren en leren van hun gedrag. Gebruikers zullen dan ook op zoek blijven naar bots die gewijd zijn aan het bereiken van die zinvolle communicatie.

David Warnink, hoofd R&D Benelux Unit4