Kennismanagement gebaseerd op patroonvergelijking lijkt veelbelovend

De hype rond kennismanagement en ‘bedrijfsintelligentie’ is omgekeerd evenredig met het aantal bedrijven dat de systemen hiervoor echt kan leveren. Een van de oplossingen die veelbelovende resultaten oplevert is gebaseerd op patroonvergelijking. De fundamenten voor deze methode zijn gelegd door de theorieën van Bayes (1763), Wiener (1948) en Shannon (1948).

Alternatieven
Voor het extraheren van informatie en het presenteren van het resultaat aan gebruikers bestaan diverse benaderingen, waaronder sleutelwoord- of Booleaans zoeken, ‘collaborative filtering’, ‘parsing’ en natuurlijke taal-analyse, en handmatig labelen.
‘Keyword search’ of ‘Boolean search’ in een database of, zoals met Google, in het web vooronderstelt dat de zoeker de trefwoorden kent en weet welke combinaties hij kan gebruiken. In de praktijk blijken veel vragen uit slechts één of twee trefwoorden te bestaan, waardoor de gebruiker zich door een grote waslijst van gevonden items moet worstelen om bepaalde informatie te vinden. Omdat het zoeken gebeurt aan de hand van exacte termen worden gerelateerde concepten niet gevonden. Er is geen leereffect tijdens het gebruik. Autonomy werkt op basis van bitpatronen in de informatie, zonder trefwoorden, en leert tijdens het werk.
‘Collaborative filtering’ doet persoonlijke aanbevelingen op basis van vergelijking met eerdere acties en andere gebruikers. eBay is een bekend voorbeeld: omdat je dit boek vorig jaar besteld hebt, ben je nu waarschijnlijk geïnteresseerd in dat boek. Dit werkt prima met een vast of beperkt aantal items op basis van andere bestellingen. Patroonvergelijking daarentegen werkt op inhoud en kan persoonlijke eigenaardigheden verwerken. Het is bovendien schaalbaar voor grote aantallen concepten en gebruikers. Het systeem blijft actueel door hertraining en bitpatronen werken onafhankelijk van de gebruikte taal.
‘Parsing’ en ‘natural language analysis’ heeft nog niet geresulteerd in echte toepassingen omdat natuurlijke taal uitermate complex is. Semantische analyse is nagenoeg onmogelijk vanwege alle ambiguïteiten, waarmee mensen heel natuurlijk omgaan. ‘Parsing’ is sterk afhankelijk van de gebruikte taal, in tegenstelling tot patroonvergelijking, dat bovendien voor alle soorten digitale informatie werkt; van tekst en spraak tot video.
‘Manual tagging’ om een taxonomie te creëren voor alle informatiebronnen vereist dat gebruikers die taxonomie kennen en de trefwoorden goed spellen. Afgezien van het probleem van het definiëren van de juiste set trefwoorden is het niet mogelijk om gelijksoortige concepten te vinden. Verder is labelen een arbeidsintensieve taak, die niet schaalbaar is naar tienduizenden labels. Als patroonvergelijking goed geconfigureerd is, kan met veel meer begrippen gewerkt worden.

Autonomy ontwikkelt oplossingen die het tot de leider op dit gebied maken. Dit oorspronkelijk Engelse bedrijf is in 1996 opgericht door Mike Lynch, die aan Cambridge University doceerde over adaptieve patroonherkenning. Het bedrijf telt nu ruim tweehonderd medewerkers, verdeeld over ontwikkeling, twee hoofdkantoren en negen vestigingen (waaronder één in Nederland). De omzet in 2002 bedroeg 50,9 miljoen dollar. Het staat genoteerd aan de Nasdaq en de London Stock Exchange, maar u heeft er waarschijnlijk nog nooit van gehoord. Dat komt doordat de software veelal aan de ‘achterkant’ van systemen werkt, bijvoorbeeld bij Reuters als kennisinfrastructuur voor alle persberichten. Van de omzet komt 20 procent van oem-partners die onderdelen in hun oplossingen voor kennismanagement, erp of crm gebruiken. De onderneming maakte de afgelopen drie jaar steeds winst.

Begrip

Autonomy ontwikkelt een ‘intelligente infrastructuurlaag’ over het besturingssysteem. Deze laag brengt grote hoeveelheden ongestructureerde informatie met allerlei indelingen en uit alle mogelijke bronnen bijeen om gebruikers te ondersteunen. De software ‘begrijpt’ automatisch de context van de gebruikte informatie, en kan die vervolgens relateren aan eerder gebruikte informatie. Philips gebruikt de producten om informatie te extraheren uit zijn enorme Lotus Notes database, zodat individuele gebruikers kunnen profiteren van de informatie in andere mails en documenten. Geen wonder dat de 21 afdelingen van het Amerikaanse ministerie van Binnenlandse Veiligheid goede klanten zijn …
Mails vormen semi-gestructureerde, tekengecodeerde informatie. Autonomy’s software werkt ook met spraak en video, omdat het systeem is gebaseerd op het vergelijken van digitale patronen. De firma kocht een bedrijf voor spraakherkenning en bracht onlangs een systeem op de markt, Audentify, dat binnen enkele seconden na een vraag allerlei relevante informatie op het beeldscherm van callcenter-medewerkers tovert. In feite is de firma dicht bij het kunnen leveren van een geheel geautomatiseerd callcenter, zonder operators, op basis van stemrespons en automatische mailbeantwoording.
Samen met Dremedia ontwikkelde Autonomy een edit-platform voor de BBC om beelden en sprekers automatisch te identificeren, die van een label te voorzien en automatisch te classificeren, compleet met hyperlinks en automatische vertaling, zodat ze te archiveren en op te vragen zijn. Voor Telecom Italia’s cursusafdeling ontwikkelde het een systeem om gepersonaliseerde leerstof samen te stellen en die via een interactief portaal aan te bieden. Hierdoor krijgen medewerkers een pakket met leerstof dat precies is afgestemd op de training die ze nodig hebben.
Het is een prestatie om automatisch voor mensen relevante informatie te extraheren uit bergen beschikbare bedrijfsgegevens, zonder dat van tevoren handmatig een syntax en/of trefwoorden zijn ingebracht, en helemaal om daarmee een systeem te creëren dat dicht bij werkelijk begrip komt, iets wat tot nu toe niet gelukt is in de computerwereld. Autonomy doet dit met patroonvergelijking op massale schaal, op basis van bekende statistische methoden en technieken.

Oude ideeën

Autonomy’s methode voor het vormen van conceptbegrippen is gebaseerd op het driehonderd jaar oude theorema van Bayes, dat de waarschijnlijkheid van A gegeven B berekend uit de individuele waarschijnlijkheden van A en B en de waarschijnlijkheid van B gegeven A. Uitbreidingen van dit theorema worden gebruikt om vragen te relateren aan de informatie in de referentiebronnen, om nieuwe informatie te categoriseren aan de hand van conceptbegrippen. Omdat deze procedures gebaseerd zijn op digitale patronen, vallen ze toe te passen op allerlei informatiebronnen, van tekst en spraak tot video.
Bestaande conceptbegrippen worden beoordeeld aan de hand van nieuwe informatie. Het verschil wordt teruggekoppeld voor hertraining, net als in neurale netwerken. Autonomy gebruikt echter geen echte neurale netwerken. Conceptmodellering is gebaseerd op Shannons informatietheorie, beschreven rond 1949. Deze theorie stelt dat hoe minder waarschijnlijk iets is, des te groter de informatie-inhoud is. Dit wordt gebruikt om de informatiefste elementen uit voornamelijk redundante informatie te filteren, zonder dat je vooraf hoeft te definiëren wat dat zou moeten zijn.
De ideeën van Bayes, Wiener (terugkoppeling, 1948) en Shannon zijn al lang bekend. Ze kunnen pas nu massaal in de praktijk gebracht worden omdat serverblades goedkoop en snel zijn. De intelligente infrastructuurlaag gebruikt massaal parallellisme, serverfarms en/of gridcomputing. De basismodules zijn een dynamische ‘redeneermachine’ en een categorieën- en gebruikersagent-server.

Zelflerend

Afgezien van deze technische details blijven de traditionele problemen van software van kracht. Bijvoorbeeld, ‘hoe specificeer je de vereisten van zo’n systeem en test je of het uiteindelijke resultaat daaraan voldoet’? Er zijn wel enkele standaardtests beschikbaar voor bepaalde informatiebronnen, maar Autonomy’s systeem werkt met verschillende bronnen en is vrijwel altijd eenmalig. Het antwoord: ‘blijkbaar hebben de 650 klanten die de software gebruiken geen moeite met dit probleem’.
Beveiliging is niet zo zeer een probleem omdat de oplossing binnen een intranet of webportaal wordt gebruikt, dat over een eigen beveiliging en autorisatie moet beschikken. Beheer en onderhoud is wel een probleem; dat speelt bij elke software. Autonomy lost dit op door het systeem zelflerend te maken. De klant bepaalt welke informatie wordt gebruikt voor de initiële opzet, en nieuwe informatie wordt automatisch toegevoegd. Afdelingen en gebruikers kunnen de infrastructuurlaag aanpassen voor een eigen desktop.
Een cruciaal punt is de prijsstelling. Autonomy heeft de roi (return on investment) gekozen als uitgangspunt voor zijn financiële model. Gezien de grootte van de contracten (gemiddeld vierhonderdduizend tot vele miljoenen dollars) draagt de software significant bij aan de bedrijfsvoering.
Massale computerbewerkingen zijn essentieel om het begrip van de bedrijfsinformatie over te brengen naar de werkers en het management. Aangezien computers – en vooral servers – steeds sneller en goedkoper worden, heeft deze technologie een gouden toekomst.< BR>

Hein van Steenis, freelance medewerker