PC krijgt mond en oren

Wat bezielde Microsoft om op 11 september een minderheidsbelang van honderd miljoen gulden te nemen in Lernaut & Hauspie, een softwarebedrijf in Ieper, West-Vlaanderen? "Om de ontwikkeling van de volgende generatie op spraak gebaseerde producten voor Windows te versnellen", meldt het persbericht uit Redmond. Staan we dan aan de vooravond van de doorbraak van spraaktechnologie? IBM en Lernout & Hauspie denken van wel. Onzin, werpt datzelfde Microsoft tegen: het zal nog even duren voor we kunnen praten met onze PC.

Al veertig jaar wordt in laboratoria naarstig gezocht naar methoden om computers te laten omgaan met spraak. Omdat zelfs het herkennen van woorden behoorlijk wat rekenkracht vergt, zijn de eerste praktische toepassingen van spraakherkenning van zeer recente datum. Sinds enige jaren zijn er softwarepakketten op de markt die een uiterst beperkt aantal gesproken woorden kunnen omzetten in geschreven tekst. Enkele specifieke doelgroepen doen onmiskenbaar voordeel met dit soort systemen. Zo heeft bijvoorbeeld een arts zijn handen vrij voor onderzoek terwijl hij zijn bevindingen kan dicteren aan zijn computer. De kwaliteit van het onderzoek en van de rapportering vaart er wel bij. Bij het dicteren moet na elk woord een korte pauze vallen, maar dat lijkt bij dit soort toepassingen niet onoverkomelijk. De noodzaak om zich in een vloeiende woordenstroom uit te drukken is wellicht niet groot. Om succes te boeken bij de modale PC-gebruiker is echter meer nodig. Bijvoorbeeld een systeem dat zinnen die op een normale zijn uitgesproken, kan omzetten in tekst.
IBM lanceerde begin juli Via Voice, een pakket dat op een natuurlijke manier gedicteerde zinnen zou kunnen omzetten naar geschreven tekst met een snelheid van 140 woorden per minuut en een foutenmarge van amper 5 procent. Tot dan toe haalden de beste producten tachtig tot maximaal honderd woorden per minuut, met bovendien een veel grotere foutenmarge. Via Voice vereist een PC die is uitgerust met een 166 MHz MMX-chip, 32 MB Ram, een geluidskaart en Windows 95. Met een prijsstelling van 199 dollar hoopt IBM de consument te verleiden om spraaktechnologie op zijn PC te installeren. De doelstelling is om dit jaar één miljoen exemplaren van Via Voice en Simply Speaking (een ouder en eenvoudiger product) te verkopen. "Wij denken dat zowel de technologie als de consument klaar is", verklaart Anne-Marie Derouault, marketing- en verkoopsdirecteur wereldwijd voor spraaksoftware van IBM.
Ook Jo Lernout, medeoprichter en ondervoorzitter van het Belgische Lernout & Hauspie Speech Products, is de mening toegedaan dat spraaktechnologie op de drempel van de doorbraak staat. De Internetpublicatie Tech Wire citeerde op 2 juli van dit jaar toplui van Microsoft die dit optimisme niet delen en met name IBM en Lernout & Hauspie een ’te enge visie op spraaktechnologie’ verweten.
"Ik ken die stelling van Microsoft", vertelt Jo Lernout. "Misschien is men bij Microsoft nog niet zo vertrouwd met onze bredere visie. Waarschijnlijk denken ze dat wij uitsluitend in de richting gaan van enkele telefoon- en dicteertoepassingen. Maar wij kennen de mensen van het Microsoft-spraaklab zeer goed. We leren van elkaar, er is op bepaalde vlakken reeds samenwerking met Microsoft."

Meertalig

Microsoft mag dan al meer terughoudend zijn over de snelheid waarmee de spraaktechnologie de PC zal veroveren, de overtuiging dat het zal gebeuren leeft ook bij het toonaangevende softwarebedrijf. In The Financial Times van 4 juni 1997 zegt voorzitter Bill Gates van Microsoft: "We may look back on the computers of today and say: Oh, they were the computers you couldn’t talk to".
"Microsoft en Bill Gates geloven rotsvast in spraaktechnologie", getuigt ook Jo Lernout. "Zij zijn ervan overtuigd dat spraak een wezenlijke verandering van de gebruikersinterface met zich mee zal brengen, zeker wanneer de computer de onderliggende semantische betekenis van woorden zal begrijpen. Een computer zal dan niet meer moeten uitzoeken wat bepaalde woorden of begrippen betekenen omdat hij dat weet binnen de applicatie die op dat moment draait. Microsoft ziet dit op zijn vroegst binnen twee jaar gerealiseerd. Wat het nu doet, is toolkits uitsturen waarmee gebruikers wat kunnen spelen. Dat is zowel voor de gebruiker als voor Microsoft een leeroefening. Maar Microsoft gaat zeker, vroeg of laat, spraaktechnologie toepassen", aldus Lernout.
Opvallend is dat naast de verwachte mastodonten (IBM, Microsoft, maar ook Philips) een aantal kleinere bedrijven een grote rol spelen in de ontwikkeling van spraaktechnologie, zoals het Amerikaanse Dragon Systems en Lernout & Hauspie. "Het is vrij normaal dat een Vlaams bedrijf die technologie aankan, zelfs in competitie met de laboratoria van Microsoft en IBM", zegt Jo Lernout. "Om spraaktoepassingen in elkaar te steken zijn veel taalkundigen nodig. Die zijn ruim beschikbaar in Vlaanderen. Ook de beschikbaarheid van meertalige software- en hardware-ingenieurs is belangrijk. In Vlaanderen bevat het onderwijs tot aan de universiteit toe een groot pakket aan taalopleidingen; zelfs in de ingenieursopleidingen is dat zo."
Lernout & Hauspie is bovendien het enige bedrijf dat onderzoek en ontwikkeling doet in alle segmenten van de spraaktechnologie. Het concurrentievoordeel dat daaruit te halen is, is groot en drukt zich onder meer uit in de reeds meer dan 140 licentieovereenkomsten op ‘Lernout & Hauspie speech products’-technologie die de afgelopen jaren gesloten werden. Tot de bedrijven die een dergelijke overeenkomst sloten, behoren onder meer Microsoft, Novell, Softkey/The Learning Company, Deutsche Telekom, Unisys Banking, Ford, Philip TMC Consortium, Texas Instruments, Hitachi en Kimpo (Casio).

Drie domeinen

Spraaktechnologie is eigenlijk een verzamelnaam voor drie aparte domeinen: automatische spraakherkenning, tekst-naar-spraak en spraakcompressie. Bij spraakcompressie is er, in tegenstelling tot bij de twee andere domeinen, geen sprake van herkenning van woorden of betekenissen. Spraakcompressie is de techniek om spraak te digitaliseren en de pakketjes zoveel mogelijk samen te drukken zodat ze zo weinig mogelijk geheugenruimte of bandbreedte innemen. Als de bestandjes gedecomprimeerd worden, zijn ze zonder kwaliteitsverlies opnieuw te beluisteren. Met spraakcompressie is de capaciteit van bestaande telefoonnetwerken bijvoorbeeld op te trekken, maar is ook de PC ten volle aan te wenden voor telefonietoepassingen. Het Amerikaanse IDT gebruikt spraakcompressie voor zijn Net2phone dat het in augustus 1996 op de markt bracht. Met Net2phone kan een PC-gebruiker via Internet telefoneren met om het even welke telefoonabonnee.
Automatische spraakherkenning (automatic speech recognition, asr) vindt toepassingen in onder meer dicteersystemen, zoals het reeds genoemde Via Voice. Woordvoerster Ellen Spooren van Lernout & Hauspie relativeert het belang van de snelheid waarmee dergelijke pakketten het gesproken woord in tekst omzetten. Momenteel is 120 tot 140 woorden per minuut met een maximum foutenmarge van 5 procent een feit, zowel voor IBM als voor Dragon Systems. Het is echter belangrijk dat het mogelijk is om met natuurlijk gesproken instructies snel en goed fouten te herstellen. Verder moet de tekst opgemaakt kunnen worden. Het heeft toch geen zin nog eens tien minuten te verliezen om een tekst via het toetsenbord te corrigeren en op te maken. In het product dat wij op de markt zullen brengen, zal deze functionaliteit, die wij ‘publishing’ noemen, aanwezig zijn."
Automatische spraakherkenning wordt ook in minder spectaculaire toepassingen aangewend, zoals ‘dialing’. U belt naar een bedrijf en vraagt naar de heer Jansen. De digitale telefooncentrale, uitgerust met spraakherkenningssoftware, begrijpt wat u bedoelt en verbindt u, zonder menselijke tussenkomst, door met de heer Jansen. Jo Lernout: "Een andere toepassing is de web-tv. In je huiskamer zit je op enkele meters van het televisietoestel; je kan moeilijk met een toetsenbord op je knieën zitten. Een ‘remote controller’ is veel te traag omdat je maar met vijf of zes opties kunt werken. Dank zij de spraaktechnologie kun je tegen de ‘set-up box’ bijvoorbeeld zeggen: "Is er vandaag iets verschenen over Lernout & Hauspie in Computable?" Het systeem zoekt het dan zelf wel verder uit. Een dergelijk soort toepassing is een wagennavigatiesysteem waartegen je kunt zeggen: "Ik moet in Rotterdam zijn aan kaai 143."

Van tekst naar spraak

Bedrijven beginnen met de implementatie van spraaktechnologie om bijvoorbeeld de betrouwbaarheid van gegevensinvoer in databanken te verhogen. Zo installeerde de Amerikaanse vliegtuigbouwer Boeing eind vorig jaar een spraakherkenningssysteem van Vocollect in twee fabrieken. Het systeem wordt gebruikt door 25 bedienden voor het voorraadbeheer, de distributie en de betaling van de 35.000 onderdelen die het maandelijks van 1.500 leveranciers betrekt. Door het spraakherkenningssysteem worden fouten uitgesloten die vroeger ontstonden in het manuele systeem: bedienden tikten de informatie over die arbeiders in handschrift op bonnen hadden gezet. Het systeem zorgt voor een vlottere en correctere afhandeling van het werk, en stelt de arbeiders ook in staat steeds beide handen te gebruiken voor de behandeling van de goederen.
Tal van nu reeds alledaagse telefoontoepassingen, zoals telebankieren en het opvragen van beurskoersen, maken gebruik van tekst-naar-spraak (text-to-speech). Bij tekst-naar-spraak zet de computer geschreven tekst om in spraak. Door de linguïstische expertise die Lernout & Hauspie heeft opgebouwd bij de ontwikkeling van spraakherkenning, kan het bedrijf ook taalkundige elementen (waar moet bijvoorbeeld een klemtoon gelegd worden?) inbouwen in zijn tekst-naar-spraak-technologie. Ellen Spooren: Tekst-naar-spraak is gebaseerd op fonemen (fonemen zijn de kleinste klankeenheden die een betekenisverschil aangeven, red). Elk woord heeft een fonetische expressie. Elke taal heeft haar eigen ‘melodie’; vergelijk bijvoorbeeld de commanderende toon van het Duits met de zangerigheid van het Italiaans."
Het gebruik van spraakherkenning en tekst-naar-spraak in één applicatie biedt uiteraard grote mogelijkheden. Zo heeft Home Automated Living, de grootste domaticasysteemleverancier in de Verenigde Staten, een systeem klaar waarmee de gebruiker op afstand allerlei functies in huis kan beheren. De gebruiker kan zijn PC bellen en vragen wat de temperatuur in de huiskamer is. Het systeem antwoordt bijvoorbeeld: ’20 graden’, waarop de gebruiker de instructie kan geven de thermostaat op 22 graden te zetten.

Vertalingen

Typisch aan de linguïstische kijk op de spraaktechnologie van Lernout & Hauspie is, dat het bedrijf een vierde component aan zijn knowhow toevoegt, namelijk vertalingen. "Een aantal linguïstische data, sub-componenten, hebben we zowel nodig voor dicteersystemen als voor machinevertalingen", verduidelijkt Jo Lernout. "In beide gevallen hebben we een lexicon, een elektronisch woordenboek nodig, evenals semantische netwerken voor de betekenis van woorden. Het woord ‘bank’ bijvoorbeeld kan in verschillende betekenissen gebruikt worden: het kan een zitbank zijn of een financiële instelling. Een ander element dat nodig is, is zinsontleding. Zeker in dialoogsystemen waarbij het systeem niet alleen moet begrijpen welke woorden er gezegd zijn, maar ook meteen de betekenis ervan, zijn technieken voor zinsontleding onontbeerlijk. Diezelfde technieken komen, weliswaar complexer, terug bij machinevertaling. Een machinevertaling moet, om goed te kunnen zijn, een zeker begrip hebben van de semantische betekenis van de brontaal en moet die kunnen genereren in de doeltaal. Juist omdat we betekenis kunnen meegeven in de doeltaal, kunnen we een aantal taalkundige elementen meegeven aan het tekst-naar-spraak-systeem, zoals hoe een zin uitgesproken moet worden en waar de klemtonen liggen.
Door de koppeling van die technieken wordt het denkbaar om een tekst in het Nederlands te dicteren aan een computer, die er dan meteen een vertaalde Engelse versie uit genereert. Dat is een kwestie van het aan elkaar koppelen van een aantal modules en van een aantal technologieën zodat ze elkaar verbeteren", bevestigt Jo Lernout. De koppeling van de verschillende technologieën maakt het aantal toepassingen eindeloos.
"Omdat de toepassingen eindeloos zijn, zullen de volumes ook gigantisch zijn", voorspelt Jo Lernout. Over de precieze betekenis van ‘gigantisch’ in dollartermen lopen de meningen zeer uiteen. Aan de ene kant heb je mensen als Frederick Hickey, analist en hoofdredacteur van een gereputeerde nieuwsbrief voor investeerders in technologieaandelen. Eind 1995 zei hij ter gelegenheid van de notering van Lernout & Hauspie op de Amerikaanse Nasdaq-beurs dat de cijfers waarop Lernout & Hauspie zich beriep – 900 miljoen dollar voor de hele spraaktechnologiemarkt tegen het eind deze eeuw – overschat waren. Aan de andere kant heb je analist John Oberteuffer, specialist in spraaktechnologie, die een omzet van 4,3 miljard dollar in 2001 voorspelt. Volgens Ellen Spooren is de markt groot en kan en sneller te ‘openen’ dan misschien is voorzien door Oberteuffer.

Interface

Bij Lernout & Hauspie is men er alvast van overtuigd dat elk elektronisch systeem, mits het voldoende brute rekenkracht heeft, mettertijd met een Lui, een language user interface, zal uitgerust worden. De Lui is een handelsmerk van Lernout & Hauspie. Hij wordt omschreven als een dialoogcomponent die de wens van de gebruiker om iets te besturen of om informatie op te vragen, kan begrijpen, of, indien de wens ontleed moet worden of niet specifiek genoeg is, bijkomende vragen kan stellen of bepaalde gegevens kan bespreken. "Spraak gecombineerd met visuele informatie geeft de beste overdracht van informatie", zegt Jo Lernout. "Spraak gaat zeker niet het scherm of het toetsenbord vervangen. De ‘language user interface’ zal een huwelijk zijn met de bestaande grafische gebruikersinterface. Die twee gaan naast elkaar bestaan."
Jo Lernout is daarbij niet bang dat kleine talen in de verdrukking gaan komen. Het is waar dat de meeste toepassingen hoofdzakelijk in het (Amerikaans) Engels beschikbaar zijn. "Dit soort toepassingen komt in de eerste plaats als een soort bovenlaag op welke PC-toepassing dan ook", zegt Jo Lernout. "Spraaktechnologie is vandaag al beschikbaar in zes, zeven talen. Tegen medio volgend jaar kunnen wij spraaktechnologie aanbieden in twaalf talen. Onze doelstelling is tegen eind 1999 de technologie in 25 talen beschikbaar te hebben. Daarmee dekken we toch ruim 90 procent van de wereldbevolking."

G. Emmenich, freelance medewerker Computable