IBM's Webfountain neemt zoekmachine een stap verder

Op internet circuleert waardevolle data. Niet noodzakelijkerwijs gevat in één enkel document of op dezelfde website. De waarde ligt hem vaak in de combinatie van informatie. IBM wil de kluwen data op internet ontwarren met zijn Webfountain, een combinatie van hardware en software die een betekenis geeft aan zoekresultaten.

Sinds het ontstaan van internet wordt er al gezocht naar manieren om de grote hoeveelheid data in kaart te brengen. Eind jaren negentig schreven medewerkers van IBM’s onderzoekscentrum Almaden en Stanford University een document over ‘hubs en authorities’. Deze theorie ging uit van de veronderstelling dat de beste manier om informatie op internet te vinden is, door te kijken naar de grootste en populairste sites. ‘Hubs’ worden daarij gedefinieerd als webportalen en expertgemeenschappen. Het concept van ‘authorities’ is gebaseerd op het identificeren van de meest belangrijke websites, door te kijken naar het aantal pagina’s dat naar die sites verwijst. Dit laatste wordt door Google gebruikt in zijn belangrijkste algoritme, Pagerank. Het werd door IBM gebruikt in een datamining-project dat de naam Clever kreeg, maar de tekortkomingen van de techniek maakte dat de onderzoekers het naast zich neerlegden. Big Blue dacht meer informatie te kunnen halen uit de documenten die de ‘hubs and authorities’-techniek juist links liet liggen: pagina’s met ongestructureerde data, zoals discussiegroepen, weblogs en nieuwsgroepen. Dat inzicht werd de start van Webfountain.

Voetbalveld

In 1999 werd de eerste hardware neergezet en sindsdien is de apparatuur zeven keer vervangen. Iedere negen maanden wordt er een half voetbalveld aan nieuwe hardware geplaatst in het onderzoekscentrum in San José, Californië. Het centrale cluster bestaat uit 32 ‘achtserver’-rekken waarop dubbele 2.4GHz Intel Xeon-processoren draaien die 10 GB aan data per seconde kunnen wegschrijven. Het systeem kan 160 TB gecomprimeerde data opslaan. Het wordt ondersteund door twee gekoppelde clusters met elk 64 tweeweg-servers die de onderliggende taken uitvoeren. Het ene cluster doorzoekt het internet (waarbij het ongeveer 250 miljoen pagina’s per week indexeert) en de andere behandelt de zoekvragen. Dit jaar worden het cluster en opslagsysteem vervangen door bladeservers, waardoor ruimte kan worden bespaard. In totaal zullen er dan 896 processoren aan het werk zijn voor datamining en 256 voor opslag. Het systeem draait dan op 1152 processoren waardoor het acht miljard webpagina’s kan scannen per 24 uur. De eerste computers hadden ook de afmetingen van een voetbalveld, maar over de afgelopen dertig jaar is technologie zover geëvolueerd dat een pc nu op tafel past. In dat licht valt te verwachten dat IBM binnen niet al te lange tijd de Webfountainruimte kan terugbrengen tot normale proporties.

Structuur

Zoekmachines als Yahoo en Google leiden gebruikers naar documenten waarin de zoekterm voorkomt en proberen de meest relevante documenten bovenaan te zetten. Webfountain gaat een stap verder. Het is een analyse-machine die naar aanwijzingen zoekt over de bedoeling en inhoud van documenten en daar vervolgens een conclusie aan kan verbinden. Tot nu toe was dit soort collectieve analyse alleen mogelijk met zogenoemde gestructureerde data die zo is georganiseerd dat makkelijk te achterhalen valt wat de bedoeling van een document is.
Webfountain converteert het oneindige aantal manieren om informatie op internet te presenteren naar een uniform, gestructureerd formaat dat vervolgens geanalyseerd kan worden. Daarbij is een meer flexibele manier nodig dan alleen gestructureerde data in een database stoppen. Een methode die dat makkelijk maakt, is XML. Daarbij krijgen verschillende elementen op een webpagina een tekstlabel dat vertelt wat de betekenis is. Nadeel is dat veel internetpagina’s geen gebruikmaken van XML en daarvoor zelfs volledig ongeschikt zijn. Te denken valt aan persoonlijke webpagina’s, e-mails, bijdragen in nieuwsgroepen en conversaties in chatrooms. Webfountain lost dit probleem op met behulp van een stukje alchemie: het transformeert niet-gelabelde data in XML-gelabelde data.
De technologie die hiervoor gebruikt wordt heet natural language processing. Dat proces lijkt veel op het ontleden van zinnen zoals iedereen op de basisschool leert, maar dan op een veel grotere schaal. Webfountain vindt de ongestructureerde data op dezelfde manier als andere zoekmachines. Een programma, ook wel ‘spin’ of ‘crawler’ genoemd, zoekt het internet af en slaat alle gevonden tekst op in een database. Het systeem kan documenten in verschillende talen ontleden. Tegen het eind van 2004 moet het 21 talen kunnen bevatten.
Overtollige informatie wordt vervolgens uit de opgeslagen documenten gewist. Vervolgens gaan veertig annotatieprogramma’s met de inhoud aan de slag. Iedere annotatieapplicatie scant de documenten op woorden en zinsnedes die het herkent en waar het vervolgens een XML-label aan hangt. De applicaties zoeken ieder naar verschillende dingen. De ene zit redelijk simpel in elkaar en kijkt bijvoorbeeld naar de taal die is gebruikt. Andere zijn meer complex en zijn daarom afhankelijk van de zogenoemde kennisbronnen die informatie bevatten over de ‘buitenwereld’. Sommige van deze kennisbronnen zijn algemeen beschikbaar, zoals bijvoorbeeld de database van de Kamer van Koophandel. Andere databases zijn eigendom van IBM, zijn partners of van de klant die de zoekopdracht laat uitvoeren.

Moeilijk kiezen

Een van de moeilijkste taken bij het zoeken naar de betekenis van tekst is het kiezen uit een aantal mogelijkheden. Het annotatieprogramma kan bij het woord ‘Middelburg’ kiezen uit de plaats in Zeeland of Zuid-Afrika. Als in hetzelfde document woorden als ‘Zeeland’ of ‘Deltawerken’ staan, gaat het waarschijnlijk over het Nederlandse Middelburg. Als woorden als ‘Ceres’ en ‘Cederberg’ gevonden worden, zal het annotatieprogramma er vanuit gaan dat het om Zuid-Afrika gaat.
Deze manier is niet waterdicht. Als iemand uit het Nederlandse Middelburg op internet over zijn vakantie in Kaapstad schrijft, zal het annotatieprogramma, door de verwijzingen naar Zuid-Afrika, ervoor kiezen om het gevonden woord ‘Middelburg’ aan Zuid-Afrika toe te schrijven. Dan Gruhl en Andrew Tompinks, de ontwikkelaars van Webfountain, geven toe dat het systeem niet helemaal foutloos is, maar ze verweren zich door te wijzen op het feit dat dezelfde verwarring zich ook bij mensen voor kan doen.
Vervolgens gaat er een andere serie machines aan het werk met de documenten waarbij de XML-aanwijzingen worden gebuikt om inzicht te krijgen in het belang van een document. Daarna worden de resultaten afgegeven aan een ander cluster dat de data op hoog niveau analyseert. Dit wordt gedaan met bestaande datamining- en andere analyse-methodes.

Duur

Webfountain is niet bedoeld voor de gemiddelde internetgebruiker. IBM mikt op grote bedrijven die al hebben laten zien te willen investeren in kennis die bedrijfsinformatie kan verschaffen. Het geeft directeuren de mogelijkheid om verder de kijken dan de informatie in hun eigen bedrijfsdatabase. Door de complexiteit van de analysemogelijkheden gaat het nog lang duren voordat directeuren zelf direct toegang hebben tot Webfountain, als dat ooit al het geval is. IBM kiest ervoor om samen te werken met partners in verschillende branches die voor klanten specifieke zoekvragen kunnen indienen. Zodra een zoekvraag is uitgevoerd, kunnen klanten de resultaten teruglezen op een website die wordt onderhouden door de betreffende partner van IBM.
In het tweede kwartaal van dit jaar start IBM-partner Factiva (distributeur van Dow Jones- en Reuters-nieuwsdienst) met zijn Webfountaindiensten waarmee bedrijven hun eigen online reputatie kunnen bijhouden. Alles wat journalisten schrijven, wat in blogs staat, wat gezegd wordt in chatrooms, wordt gecombineerd. De dienst is niet goedkoop: 200.000 dollar per jaar. Na Factiva moeten andere IBM-partners volgen en dan zal duidelijk worden of Webfountain de groei in vraag naar dataminingdiensten in verschillende markten kan bevorderen.
Er werken ongeveer tweehonderd onderzoekers aan het project in acht verschillende onderzoekscentra wereldwijd, waaronder India, New York en Peking. IBM heeft meer dan honderd miljoen dollar in het onderzoek en de ontwikkeling gestoken.
Vooralsnog is het voornamelijk aantrekkelijk voor IBM zelf. Big Blue probeert ondernemers te winnen voor het ‘on demand’-bedrijfsmodel, waarbij processorkracht wordt gehuurd van een centrale aanbieder. Dit betekent dat klanten geen eigen hard- en software hoeven aan te schaffen. Webfountain sluit naadloos aan op dit ‘ict als nutsmiddel’-model.< BR>