Big data voor dummies

09 april 2015 - 20:455 minuten leestijdOpinieData & AI

Mijn voorspelling is dat we dit jaar de doorbraak van big data gaan zien. En mijn volgende voorspelling is dat het de dummies zijn die voor die doorbraak gaan zorgen.

Maar eerst ga ik toch weer eens definiëren wat ik onder big data versta. Big data is het opslaan van grote hoeveelheden data die domweg te omvangrijk zijn om op een enkele server geplaatst te kunnen worden. We hebben dus meerdere servers nodig om de gegevensbestanden op te zetten. We praten dan al snel over tien of meer servers die we nodig hebben. Het gaat dan om honderden Terabytes aan gegevens. Dergelijke gegevens kunnen afkomstig zijn van sensordata van machines of cdr’s van een telco.

Om gegevens die op veel machines verspreid staan te kunnen benaderen zijn speciale technieken ontwikkeld. Simpel gezegd komt het neer op programma’s die een query eerst opdelen over de verschillende machines. In een volgende stap worden de deelresultaten van de verschillende machines samengevoegd tot een antwoord op de query.

Om dit te kunnen doen, moesten de ontwikkelaars speciale Java-programma’s schrijven die de taken konden uitvoeren. Het eerste deel van het programma splitste de taak op over de verschillende machines en het tweede deel van programma voegde de deelresultaten samen tot het antwoord. In sommige high tech-organisaties kon men dat. Ik heb me laten vertellen dat een bekende online-boekverkoper in feite een high tech-bedrijf is waar veel wizz kids heel slimme Java-programma’s schrijven die ons precies vertellen welke boeken het best in onze smaak vallen.

Voorbeelden

Maar een dergelijke aanpak is niet voor alle bedrijven weggelegd die aan de slag gaan met big data. En voor dit soort bedrijven zijn er nu allerlei producten gemaakt die het mogelijk maken big data te gebruiken. Ik noem een paar producten bij wijze van voorbeeld. Ik weet wel dat er nog veel meer is, maar ik vond de producten mooie voorbeelden van een algemene trend om big data voor dummies beschikbaar te krijgen.

Laat ik eerst eens het product R van de R Foundation noemen. R is een razend goede statistische tool die complexe statistische berekeningen kan uitvoeren. Anderzijds is de scripting taal om R te laten werken niet zo ingewikkeld. De gebruiker kan vrij eenvoudig complexe statistiek doen. Bovendien is R een open-source product. Daarmee heeft R de support gekregen van de wetenschappelijke gemeenschap, die ertoe geleid heeft dat R tegenwoordig een serieuze bedreiging is van grote commerciële software verkopers. Tegenwoordig kun je vanuit R de big data benaderen met behulp van (bijvoorbeeld) RHadoop. Dat stelt je in staat om R-achtige scripts te schrijven die onder water de taken verdeelt over de verschillende servers waarop de big data staan en die vervolgens de deelresultaten samenvoegt en teruggeeft aan R. Het voordeel voor de R-dummy die geen zin heeft om ineens Java te moeten schrijven, is dat hij in zijn R-omgeving kan blijven en dat hij beschikt over de voordelen van big data. Op die manier komt big data binnen het bereik van de R-community.

Vervolgens het product Informatica. Informatica is een hele goede extraction, transformation and load (etl)-tool, die ook nog eens bijdragen kan leveren op het gebied van master data management. Veel gebruikers zijn maar wat blij met Informatica. Op een eenvoudige manier kunnen ze gegevens van de ene omgeving naar de andere verplaatsen. De omgeving is goed performant en prettig beheersbaar. En sinds kort heeft Informatica ook een connector naar big data. En dat opent ineens prettige opties. Je zou kunnen overwegen om een overvol data warehouse naar big data te migreren met behulp van Informatica. Of je zou kunnen overwegen om grote hoeveelheden sensor data met Informatica in een big data omgeving op te slaan. En je kunt dat doen, terwijl de ontwikkelaar in een bekende Informatica-omgeving blijft, waarbij de big data slechts een van de omgevingen is waarheen hij data kan wegschrijven. Het voordeel van deze opzet is dat er geen Java geleerd hoeft te worden. En de organisatie kan de voordelen van big data gaan gebruiken. Dat betekent dat de Informatica-dummy toe kan treden tot de big data-gebruikers.

Dan het pakket Pivotal. Pivotal biedt de gebruiker een big data-omgeving waar hij de data over verschillende servers kan verdelen. Daarnaast biedt Pivotal een tool (HAWQ) waarmee de gebruiker met gewone SQL de gegevens kan benaderen en kan analyseren. Het voordeel voor de gebruiker is dat hij SQL kan blijven gebruiken, zonder dat hij Java moet leren om de gegevens te benaderen. Hij krijgt daarmee de mogelijkheid te genieten van big data zonder door het Java-stof te moeten. Dat betekent dat de SQL-dummy gewoon dummy kan blijven als hij aan de slag gaat met big data.

Conclusie

Ik weet het: ik heb een hoop producten niet genoemd. Als testje heb ik in Google een aantal bekende rapportage tools ingevoerd met Hadoop als extra zoek term. Ik zag dat iedere moderne rapportage tool tegenwoordig wel een connector naar de big data-omgeving biedt. Het is duidelijk dat iedere software leverancier probeert de gebruikers ook toegang te bieden tot big data. En dat gebeurt dan zonder dat de gebruikers complexe Java-programma’s moeten schrijven om de analyse mogelijk te maken. Daarmee krijgen we een hoop dummies die aan de slag gaan met big data. En volgens mij zorgen al die mensen ervoor dat mijn voorspelling gaat uitkomen: de dummies zorgen voor de doorbraak van het gebruik van big data.

8 reacties op “Big data voor dummies”

Jan van Leeuwen schreef:

27 april 2015 om 10:25

In de tijd dat cpm80, 64 Kb en 10 MB veel was, kon men zich ook niet voorstellen dat Gb’s vol konden komen.
Wanneer is data “big data”? Wat ik lees, is alleen veel data, maar de kenmerken van het begrip “big data”, namelijk het algoritme, vindt ik hier niet beschreven daarom geloof ik niet dat “dummies” die algoritmen kunnen bedenken, noch die omzetten naar IT die informatie levert.

Log in om te reageren
Felix The Cat schreef:

27 april 2015 om 16:14

@Jan,
Wat big data is dat kun je gewoon in wikipedia opzoeken.
De dummies zijn niet de algoritme bedenkers. Ze gebruikers slechts tools. Tools die werken met algoritmen, waarschijnlijk bedacht door niet-dummies. De schrijver is er toch vrij duidelijk in.

De conclusie van de auteur, dat de eindgebruikers voor doorbraak gaan zorgen, lijkt me wat teveel eer voor de dummy. Diegene die iets uitvindt, produceert en verkoopt, waarmee wij kunnen werken. Die wel. Google en wikipedia bijvoorbeeld. Zoek maares op en trek je conclusie 😉

Log in om te reageren
Ewoud D. schreef:

27 april 2015 om 19:29

Moderne synthese van datasets combineren met Excel on sterïods kent nog wat grenzen nu we in het pre-Snowden tijdperk zijn gekomen en we maatschappelijk toch wat aversie beginnen te ontwikkelen tegen mogelijkheden van profiling, neem bijvoorbeeld de call detail records (cdr) welke nogal wat Personally Identifiable Information (PII) attributen bevatten. Dat marketing dus interesse heeft gekregen voor de non-functionele informatiestroom van machine gegenereerde data is prachtig maar logfiles zijn niet echt nieuw.

Log in om te reageren
Johan Duinkerken schreef:

28 april 2015 om 06:09

Het gaat er niet om wat je hebt, maar wat je er mee doet.

Wat dat betreft heeft het meer zin om de data die je vergaard bij het invoeren al te indexeren dan dat je alles op een hoop gooit en dan gaat grabbelen. Want hoe kun je de resultaten die je via Big Data gevonden hebt staven?

Log in om te reageren
NumoQuest schreef:

28 april 2015 om 07:32

Wat ik nou zo jammer vind is dat je het niet hebt over de integriteit van BigData van Dynamic data. Ruim 40% van het totaal van die Dynamic Big Data is corrupt. Onmeetbaar corrupt waardoor het trekken van conclusies van dergelijke data de nodige gevaren met zich mee zullen gaan brengen, niet in de laatste zin het afstemmen van bepaald beleid op getrokken conclusies.

Ik lees daar zelden echt iets over. Beetje jammer. Verkooptechnisch niet leuk dit te benoemen maar eerlijkheid gebied……

Log in om te reageren
Jan van Leeuwen schreef:

28 april 2015 om 10:42

@Felix
de eerste zin bij de definitie van wikipedia luidt:
“De definitie van big data is niet altijd duidelijk en de term big data wordt vaak ten onrechte gebruikt”.
ICT volgt een biologisch groeimodel, wat we nu “groot” noemen is over een jaar of 10 niet meer relevant en vinden we dan normaal. Ik herinner graag aan Gates die ooit beweerde dat niemand meer als 640Kb geheugen nodig had.
Ik sluit me aan bij Ewout, “logfiles zijn niets nieuws” en NumoQuest “40% van de data is corrupt” waarbij conclusies getrokken uit deels corrupte data waarschijnlijk niet erg betrouwbaar zijn.
De Dummy neemt het echter voor waar aan . . . . . . brave new world.

Log in om te reageren
Tom Van Maanen schreef:

28 april 2015 om 11:14

@Felix. Je hebt helemaal gelijk als je zegt dat de gebruikers (die ik maar even met de geuzennaam “dummy” betitel) de algoritmes niet zelf bedenken. Hij zal de algoritmes dan wel kunnen begrijpen, maar het programmeren laat hij graag over aan de makers van R en zo. Maar ik denk wel dat er heel veel gebruikers zijn die straks aan de slag gaan met de combinatie bekende tool (zoals R) en big data platform. Daarmee krijg je zoiets als dat je ook bij Office hebt gezien. Omdat er heel veel mensen iets gaan gebruiken, wordt het een de facto standaard en krijgt het product een geaccepteerde status. Ik kan me voorstellen dat we over een paar jaar grote hoeveelheden data altijd op een Big Data platform zetten, zonder er echt bij na te denken. Waarom? Omdat het de standaard is. Net zoals we voor kleine berekeningen altijd Excel gebruiken. Waarom? Omdat het de standaard is.

Log in om te reageren
Felix The Cat schreef:

28 april 2015 om 21:45

@Numo,
Het leuke van statistiek is dat je bij 40% corrupte data, nog allerlei zinvolle conclusies kunt trekken. Vooral als het veel data betreft en laat dit onderwerp nou net over big data gaan.

@Jan,
Wat juist niet zo relevant is, is de absolute grootte van de data. Het gaat om de statistische algoritmen die gebruikt kunnen worden om de info eruit te filteren. Een zin als “Gates die ooit beweerde dat niemand meer als 640Kb geheugen nodig had” is voor meedere uitleg vatbaar, omdat de context ontbreekt. Was het dat moment, of een tijdspanne, of voor altijd. Of heeft hij het gewoon nooit gezegd zoals hij zelf beweert. Hoe betrouwbaar ben jij als je hem quote ?

@Tom,
dat zeggik, teveel eer en ik geloof er geen bal van dat gebruikers de algoritmes begrijpen. Zeker nu ik bovenstaande reacties heb gelezen 😉

Log in om te reageren