Datamining

De term ‘datamining’ wordt gebruikt voor producten waarmee informatie uit gegevens te destilleren is. Het is niet realistisch om te denken dat één product aan alle eisen kan voldoen.

Daarom definieer ik datamining het liefst als een techniek voor het identificeren van niet van te voren gedefinieerde correlaties in gegevensverzamelingen. Met andere woorden: wist je dat A en B sterk gecorreleerd zijn, in plaats van: wat is de correlatie tussen A en B. Het is niet van levensbelang, maar in deze visie is datamining een achtergrondtaak, terwijl datamining volgens de heersende opvatting een overwegend interactieve taak is.
Datamining is een goed idee. De hardware voor een gegevenspakhuis is relatief duur omdat verwerking en opslag een hoge piekbelasting kennen. De totale benuttingsgraad is doorgaans echter tamelijk laag. Datamining-tools kunnen op een lage prioriteit draaien, waarbij ze op een nuttige manier gebruik maken van overtollige processortijd. Het zoeken naar onbekende correlaties is denkelijk een betere manier om restcapaciteit te benutten dan het uitrekenen van ’s werelds grootste priemgetal.
De analogie met mijnbouw is niet zo sterk, maar de naam is inmiddels blijvend gevestigd. Een echte mijn heeft slechts van te voren aangelegde gangen en schachten, net als veel oudere informatiesystemen. De beperkingen van de geprepareerde ‘drill-down’, waarbij er geen pad naar de volgende query is, heeft vele Eis-projecten ernstig belemmerd. Datamining-tools graven echter in alle richtingen. Een rare mijn, als je het mij vraagt.
Datamining-tools moeten ook interactief kunnen werken, als onderdeel van de tool-set of in de vorm van een koppeling met interactieve analyse-tools. De mining-operatie zelf wordt uitgevoerd door een ‘agent’. Als de ‘agent’ een trend ontdekt, geeft hij een signaal. Hij kan natuurlijk een rapportje printen, maar een interactieve analyse met een visualisatie-tool werpt meestal meer vruchten af. Ik moet zeggen dat de integratie met bestaande analyse-tools mij meer aanspreekt dan weer een nieuw hulpmiddel, maar het is vaak moeilijk om à la minute een nieuw analytisch model te ontwikkelen. De meeste ‘ad hoc’ tools voeren analyses uit op basis van meerdere modellen; hierbij kan het moeilijk zijn om een associatie met een gedetecteerde trend te leggen.
Er zijn verschillende manieren om gegevens willekeurig te interpreteren zodat trends en correlaties zijn op te sporen. Er is een aantal gespecialiseerde algoritmen; de bekendste worden nu toegepast in commerciële producten, te weten: inductie van geassocieerde regels, beslissingsbomen, de dichtstbijzijnde buurman op afstand K, neurale netwerken en genetische algoritmen. Eerlijk gezegd snap ik niets van de details, maar ik weet wel dat de verschillende algoritmen onder verschillende omstandigheden het best tot hun recht komen. Om de beste resultaten te krijgen, is dan ook een behoorlijke hoeveelheid expertise nodig. De meeste datamining-producten bevatten veel en meestal alle algoritmen. Vaak kun je verschillende algoritmen tegelijk aan het werk zetten, waarna je de resultaten kunt vergelijken. Dit is een belangrijke factor bij de selectie van een datamining-product; een product met slechts één algoritme is ongeschikt voor algemene toepassingen.
Datamining-tools kunnen alle mogelijke gegevens aan, of het nu relationele tabellen, geïndiceerde ‘records’ of platte gegevens zijn. Correlaties zijn echter alleen binnen de beschikbare gegevens te detecteren. Zoals gebruikelijk is het niet eenvoudig om datamining op productiegegevens toe te passen. En weer wordt duidelijk hoe belangrijk een gegevenspakhuis is. Dit is een interessant praktisch gegeven. De meeste datamining-tools zijn ontwikkeld in onderzoekslaboratoria, lang voordat er sprake was van gegevenspakhuizen. Vroeger heetten deze technieken ‘kennisgebaseerde systemen’. Ze waren geschikt voor analyse, en soms ook voor het ontwikkelen van applicaties voor complexe taken als inroostering en expertsystemen. Al met al een gelukkige omstandigheid: datamining en gegevenspakhuizen vullen elkaar op een positieve manier aan, waardoor de toepassing van beide technologieën snel toeneemt.
Datamining is een server-georiënteerd concept. Als het gegevenspakhuis op een Unix-platform draait, kan de mining-software als een achtergrondproces op hetzelfde systeem draaien. Meestal is er een PC-module nodig om het mining-proces te starten en aan te sturen; er zijn altijd wel wat randvoorwaarden en richtlijnen op te geven. De analyse en visualisatie van de resultaten wordt uitgevoerd met behulp van een dikke PC-client. Hierbij analyseert men de gegevens in een gegevenspakhuis op basis van de resultaten van het mining-proces of bekijkt men een uittreksel van deze gegevens dat is samengesteld door de mining-tool zelf. De trend naar dunne PC-clients, waarbij alleen de presentatie op de PC draait, moet echter worden aangemoedigd. Dit betekent vandaag de dag: Unix. Ontwikkelingen op MVS en NT blijven natuurlijk interessant. Tandem zal ongetwijfeld proberen NT in de eredivisie te laten meespelen. Het bedrijf heeft immers de Intel-processoren omarmd en maakt nu deel uit van Compaq’s plannen om de grootste leverancier ter wereld te worden.
De huidige producten zien er goed uit en worden reeds intensief gebruikt. Maar denk niet dat ‘ad hoc’ query-tools hetzelfde zijn als datamining-tools, al worden ze soms wel zo genoemd.