Managed hosting door True

Zoeken alleen is niet voldoende

Relevante informatie selecteren uit bergen gegevens vereist interpretatie

 

Kennismanagement is een probleem binnen de medische en farmaceutische wereld. "Voor veel wetenschappers is het niet meer te doen om alle voor hen relevante literatuur bij te houden", vertelt Collexis-cto en 'assistant professor' aan het Erasmus MC Erik van Mulligen. Hij ontwikkelt methoden en technieken om op basis van thesauri grote hoeveelheden gestructureerde en ongestructureerde gegevens te ontsluiten.

Een klein en relatief onbekend Nederlands softwarehuis begint naam te maken in wetenschappelijke kring. Collexis levert programmatuur waarmee zeer grote verzamelingen gestructureerde en ongestructureerde gegevens te ontsluiten zijn. Het ontwikkelt de technologie die de basis voor deze producten vormt in samenwerking met het aan de Rotterdamse universiteit gelieerde Erasmus Medisch Centrum (de nieuwe organisatie die het Dijkzigt, Sophia, Daniel den Hoed en de voormalige medische faculteit van de Erasmus Universiteit omvat).
Erik van Mulligen vormt de verbinding tussen bedrijf en universiteit. Hij is cto (chief technology officer) van Collexis en daarnaast 'assistant professor' aan de medische faculteit van het Erasmus MC. Hij ontwikkelt momenteel onder andere een visualisatiemodel om de relaties tussen gegevens te kunnen weergeven.

Overzicht kwijt

Wie met Van Mulligen praat wordt al snel ondergedompeld in de wereld van medisch onderzoek. Het gaat bijvoorbeeld over dna-chips en de grote hoeveelheden data die zij voortbrengen. Of over de naamstelling van genen, die vaak meer creatief dan slim is en daardoor alles behalve consistent. Het lijkt een wereld die ver weg staat van de markt voor softwareproducten voor het ontsluiten van grote hoeveelheden gestructureerde en ongestructureerde gegevens.
Bij nader inzien zijn deze twee werelden onlosmakelijk met elkaar verbonden. Een belangrijk probleem binnen de medische en farmaceutische wereld is namelijk kennismanagement. "Er wordt zoveel informatie geproduceerd dat het voor veel wetenschappers niet meer te doen is om alle voor hen relevante literatuur bij te houden. Sterker nog, het is vaak niet eens meer goed mogelijk om te kunnen vaststellen welke publicaties wel en welke niet relevant zijn", vertelt Van Mulligen. Niet alleen het bijhouden van door andere onderzoekers geproduceerde literatuur is een uitdaging geworden. Ook intern zijn veelal dermate veel onderzoeken, documenten en rapporten beschikbaar dat men al snel het overzicht verliest, terwijl al dit materiaal een interessante bron van nieuwe kennis en dus wellicht nieuwe producten vormt.
Er bestaat dus behoefte aan hulpmiddelen om snel en nauwkeurig in gegevens- en documentverzamelingen te kunnen zoeken. "Belangrijk daarbij is dat alleen maar kunnen zoeken niet voldoende is. Dat kan met een zoekmachine als Google ook heel goed, maar daarmee lossen we het probleem niet op. Waar het ons vooral om gaat is dat we de gebruiker niet een keurige lijst willen presenteren met vele honderden documenten waarin de gehanteerde zoektermen voorkomen. We willen juist hulpmiddelen aanbieden waarmee we de relevantie van documenten en gegevens kunnen vaststellen. Dat is dan ook de kern van wat wij doen: het gaat niet om zoeken, maar om interpreteren."

Relaties

In zijn dubbelfunctie van cto en 'assistant professor' richt Van Mulligen zich op het ontwikkelen van methoden en technieken om op basis van thesauri grote hoeveelheden gestructureerde en ongestructureerde gegevens te ontsluiten. Hij werkt op basis van technologie die al enige tijd als commercieel product op de markt is.
Centraal in dit softwareproduct staat het gebruik van een thesaurus waarin een zo compleet mogelijk overzicht van de in het domeingebied gehanteerde woorden, synoniemen, homoniemen en dergelijke vastligt. Het doorzoeken van gegevens- en documentverzamelingen gebeurt op basis van 'concepten' (de gestandaardiseerde vormen van woorden of zinsdelen zoals deze in de thesaurus te vinden zijn). Een software-engine doorzoekt een document en stelt vast welke concepten daarin voorkomen. Het resultaat is een profiel, een 'fingerprint' in de terminologie van Collexis. Dit is een lijstje van concepten en de mate waarin zij in het document voorkomen. Deze vingerafdruk is een unieke beschrijving van de inhoud van een document, die wordt vastgelegd als een bestandje.
De gebruiker kan vervolgens een zoekopdracht ingeven. Dit kan één woord, een zin, maar desnoods ook een compleet tekstdocument zijn. Van deze 'zoekvraag' wordt eveneens op basis van de thesaurus een vingerafdruk gemaakt. Dit brengt zoeken in grote verzamelingen dus terug tot het met elkaar vergelijken van vingerafdrukken: die van de vraag en die van de opgeslagen documenten. Daarmee valt een forse tijdwinst te boeken. Dat verklaart waarom met de software zeer grote aantallen documenten - eigenlijk dus vingerafdrukken - in korte tijd te doorzoeken zijn. "Een half miljoen vingerafdrukken doorzoeken vergt niet veel meer tijd dan pakweg 20 milliseconden", zegt Van Mulligen. Het resultaat van het vergelijken van de zoek-vingerafdruk en de verzameling document-vingerafdrukken is een lijst met documenten waarvan de content in meerdere of mindere mate met elkaar overeenkomt.
Deze manier van werken is handig wanneer de gebruiker zoekt naar informatie die in een document (tekstbestand, Powerpoint-slides, pdf's en dergelijke) is vastgelegd. Met andere woorden: er bestaat op dat moment een directe relatie tussen de zoekvraag en de gevonden documenten. De gebruiker kan echter ook geïnteresseerd zijn in indirecte relaties. "Indirect gerelateerde onderzoeksartikelen kunnen voor onderzoekers ook interessant zijn, aangezien veel wetenschappelijke vragen niet in één artikel beantwoord worden. Alleen door elementen uit verschillende artikelen te combineren valt een antwoord op complexe vragen te vinden."

Relevantie

"De enorme aantallen wetenschappelijke artikelen handmatig combineren is onbegonnen werk. Via concepten lukt het wel, wanneer we er tenminste in slagen om een goed geordende representatie van co-occurence te gebruiken om de relaties tussen concepten te onderzoeken of om naar paden tussen twee concepten te zoeken."
Een pad is een keten van concepten waarbij elke stap in het pad bestaat uit twee concepten die samen voorkomt in een artikel. Onder 'co-occurence' verstaat Van Mulligen dat in een artikel twee of meer concepten voorkomen. "De aanname hierbij is dat gerelateerde concepten vaker samen voorkomen dan niet-gerelateerde concepten. Concepten en de verbindingen daartussen zijn weer te geven met wat we in de wiskunde 'grafen' noemen. Hierin worden de concepten in een meerdimensionaal model geplaatst, waarbij lijnstukken tussen concepten de onderlinge relaties aangeven. Bij directe relaties wordt een verbindingslijn tussen de twee concepten getrokken. Bij een indirecte relatie is een concept niet rechtstreeks via een lijnstuk met een ander concept verbonden, maar alleen via een ander concept dat wel via een lijnstuk aan het indirect gerelateerde concept is verbonden."
"Nog steeds weten we dan niet zoveel. Eigenlijk hebben we alleen maar zichtbaar gemaakt dat er een directe of indirecte relatie bestaat. Het zou heel nuttig zijn wanneer we door middel van de lengte van de verbindende lijnstukken iets zouden kunnen zeggen over die relatie. Dus: hoe dichter twee concepten bij elkaar zijn geplaatst, hoe korter het lijnstuk daartussen is. Dit geeft dan ook aan hoe nauw de relatie tussen twee concepten is. We zijn nu zover dat we die relaties echt in kaart kunnen brengen. Hierdoor kunnen we nu ook goed zoeken naar indirecte relaties tussen twee concepten die weliswaar nooit gezamenlijk in een artikel voorkomen, maar die wel veel 'co-occurence' concepten gemeen hebben."
Deze technologie is met financiering van Collexis (het heeft een 'right of first refusal' op binnen het onderzoeksprogramma ontwikkelde technologie) ontwikkeld. Hij is inmiddels in bètaversies van concrete softwareproducten te vinden. "Het interessante aan deze technologie is dat we nu een beter beeld van de relevantie van de gepresenteerde informatie kunnen geven. Bovendien kan een onderzoeker aan de hand van een of meer grafen snel een weg vinden in zeer grote aantallen documenten. Het is een kwestie van op het beeldscherm klikken op concepten die interessant lijken."

Onderzoeksprojecten

Andere onderzoeksprojecten die aan de Erasmus op het gebied van het terughalen van opgeslagen informatie worden ondernomen, richten zich onder meer op het op geautomatiseerde wijze samenstellen van thesauri. "Dat doen we samen met TNO. Dit is een belangrijk maar lastig vraagstuk aangezien de kwaliteit van een thesaurus van groot belang is voor het gebruik van onze technologie. Willen we kunnen verbreden naar andere markten, dan is het belangrijk iedere keer over een kwalitatief goede thesaurus te beschikken."
Een ander project heeft te maken met 'guided searches'. "Wanneer iemand een zoekterm intikt, voeren we op basis van de hiervoor beschreven technologie automatisch een analyse uit om aanpalende relevante concepten te vinden. Die bieden we de gebruiker in de interface aan als extra zoekmogelijkheden, waardoor hij de vraagstelling nauwkeuriger kan maken."
E-Vamp is een ander project dat als product inmiddels in de testfase verkeert. "Dit is in feite een applicatie die eveneens is gebaseerd op de technologie voor het geven van meer informatie over relaties tussen concepten. E-Vamp is aan iedere website toe te voegen. Het maakt het mogelijk om alle op een webpagina gevonden concepten te voorzien van een hyperlink, waardoor de gebruiker via een proxyserver van Collexis naar relevante extra informatie over het aangeklikte concept kan zoeken. E-Vamp is een goed voorbeeld van hoe wetenschappelijk onderzoek naar het terughalen van opgeslagen informatie kan leiden tot concrete en in het dagelijks leven nuttige nieuwe producten."< BR>

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/1325873). © Jaarbeurs IT Media.

?


Lees meer over


 
Vacatures

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×