Managed hosting door True
Deze opinie is van een externe deskundige. De inhoud vertegenwoordigt dus niet noodzakelijk het redactionele gedachtegoed van de redactie.

Big data is intrinsiek veilig

Big data en veiligheid lijken op gespannen voet te staan met elkaar. Ikzelf heb ook wel eens een uitspraak gedaan over de uitdagingen die nog te nemen zijn voordat persoonlijke data gebruikt kunnen worden in big data toepassingen. In deze blog toch een poging een alternatief inzicht te bieden.

Bij veiligheid van data en informatie wordt vaak als eerste gedacht aan diefstal van die data en informatie en het voorkomen daarvan. Daarmee gaan we voorbij aan de mate van “big” in big data. We moeten beseffen dat we het niet hebben over data die nog in een Excel bestand past, of in een reguliere database. Bij big data hebben we het over data die zo omvangrijk is dat je een vehikel nodig hebt zoals een netwerk, het Internet of iets anders van deze omvang. Daarmee is diefstal van big data geen houdbaar concept. Je 'steelt' ook niet het Internet…

Dit is overigens niet alleen maar een definitie-trucje om uit te leggen dat we niet zo moeilijk moeten doen over big data en veiligheid. Het is wel een statement dat veel uitspraken over veiligheid en big data niet bij big data horen, maar veel meer gaan over de bestaande uitdagingen in data beveiliging.

Big data is dus intrinsiek veilig, juist omdat het zo big is... Je steelt de Eiffeltoren ook niet zomaar.

Er is nog een reden waarom big data een intrinsieke veiligheid heeft. Vanwege de omvang van big data, is het onmogelijk om die data in een applicatie te stoppen. De eeuwige discussie over centralisatie versus decentralisatie, SBC/VDI versus fat clients, et cetera, komt in een ander licht te staan met big data. De apps moeten naar de data omdat de data niet meer naar de apps kan. Daarmee is de virtuele 'afkadering' van big data intrinsiek afgedwongen. Als er sprake is van data die “weglekt” via een app, dan kan dat “slechts” een klein deel van de data zijn. De impact van een lek is daarmee met grote mate van zekerheid klein.

Tot nu toe heb ik alleen over 'data' gesproken en niet over 'informatie'. Dat is geen toeval. Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen. Informatie is op heel veel manieren te 'stelen'. Het leuke van big data is dat er een reden is waarom je deze data bij elkaar brengt: het geeft je de mogelijkheid om real time informatie te destilleren uit grote hoeveelheden data. Dat real time aspect is cruciaal voor vele toepassingen. Als je namelijk alle tijd van de wereld hebt, hoef je de data namelijk niet bij elkaar te brengen. Dan kun je beter door alle individuele data systemen heen akkeren en dan krijg je over een tijdje precies de juiste informatie. Een essentieel aspect van big data is, dat de informatie die je er uit wil halen, real time beschikbaar moet zijn. Je wil namelijk nu weten waar iemand is en of je hem in zijn huidige situatie nog wat kan verkopen. Je wil namelijk nu weten of er de komende uren iemand ergens een aanslag wil plegen. Je wil namelijk nu weten of je iemand een andere route moet laten rijden om een verkeersopstopping te vermijden.

Nu hoor ik u vragen hoe dat dan zit met bijvoorbeeld credit card gegevens; daarvoor zou je best even de tijd uit kunnen nemen om de data om te zetten in informatie. Neem de tijd en uiteindelijk kun je rijk worden met boevenpraktijken. Maar nogmaals: Dat heeft niets met big data te maken. Als je credit card gegevens wil hebben, moet je daar nu ook al een systeem voor kraken. Het is lastig maar wel mogelijk en het heeft niets met big data te maken. Misschien zijn credit card gegevens in een big data context wel beter verborgen en daarmee ook beter beveiligd dan in een legacy systeem.

En dat brengt mij bij mijn laatste argument waarom big data intrinsiek veilig is... De allergrootste uitdaging in het big data domein is kennis en vaardigheden. De uitdaging is namelijk hoe je een speld uit een hooiberg haalt in een fractie van een seconde. Dat vergt een heel nieuwe manier van denken. Het menselijk brein is niet gebouwd voor dit soort inzichten. De systemen die we ontwikkelen om real time de spelden te vinden, zullen een grote mate van kunstmatige intelligentie hebben die uiteindelijk wel de informatie produceren die we nodig hebben, maar die we niet noodzakelijkerwijs terug kunnen leiden naar de oorspronkelijke data.

Kortom: ik als klant ben graag bereid mijn data toe te vertrouwen aan de big data omgeving. Ik besef namelijk dat ik daar als klant uiteindelijk een heel persoonlijke dienstverlening uit zal krijgen.

Ter afsluiting: Ooit was er iemand die alle persoonlijke data van alle mensen wilde stelen. Het plan was om iedereen te dwingen deze data in te leveren. Deze zogenaamde 'torture'-strategie was niet succesvol en de initiatiefnemer werd voor lange tijd opgesloten... Iemand anders vond de social netwerken uit...

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/4616993). © Jaarbeurs IT Media.
?

 

Reacties

@John: als ik je argumentatie goed interpreteer, noem je Big Data veilig 'omdat het niet in zijn geheel' te stelen is. Maar stel je kunt er wel bij, dan is het begrip 'inherent veilig' eigenlijk niet zoveel waard. Want als een buitenstaander zijn analyses er op los kan laten, wordt geen 'data' gestolen, maar wel 'informatie'.
Ik zou de titel daarom willen wijzigen in: 'Big Data maakt informatie inherent onveilig'.

Wel een interessante gedachte met nieuwe perspectieven! Dus als we bijvoorbeeld de juwelen van alle Nederlanders samen in 1 kluis stoppen, dan is het daar ook intrinsiek veilig. Niemand is immers in staat om alle juwelen van alle Nederlanders in 1 keer te stelen. En als inbrekers willekeurig wat meenemen is de kans klein dat het net jouw juwelen zijn...

Leuk om te lezen maar inhoudelijk gewoon troep en hier zou niemand intrinsiek wat mee moeten doen. Dit is gewoon vragen om aandacht, en deze krijg je ook, net als bij je vorige artikel.

Atomen stelen is iets anders dan bits stelen. Grappig genoeg kun je geen bits stelen, hooguit de fysieke drager. Bit stelen (ofwel downloaden) is een vorm van kopieren. Net als dat piraterij geen stelen is maar kopieren al kun je daar wel leuk over discussiëren.

Maar goed, Big Data stelen gebeurt vaak. Social Media zoals Facebook hebben API's. Door mensen jou "applicatie" rechten te geven mag je dus data opvragen van zo'n profiel. Door een viral (spam) app te maken kon zo zeer veel "Big Data" gestolen worden, en of dat waardevol was! Facebook bestrijdt dit soort initiatieven dus.

Wat nog erger is: Stel dat mensen echt denken dat big data veilig is en het niet beveiligen, dan zullen er boefjes zijn die deze grote verzamelingen gaan koppelen, iets wat dus ook gebeurt bij het "Open Data" initiatief van de overheid.

Zou kun je kadaster gegevens koppelen aan inkomens per postcode om te zien waar inbreken zin heeft. Dit is maar een voorbeeld. Stel iemand vraagt jou een lening, door te checken wie iemand zijn vrienden zijn kun je al een goede inschatting maken of je geld ooit nog terugbetaald wordt.

Met cloud computing kun je heeeeeel hard data slurpen, dit doe je geautomatiseerd. En informatie maken... als het om geld verdienen gaat kunnen mensen zeer creatief worden.

Dus kortom leuk dat je weer de aandacht hebt, maar of je daar nu blij van moet worden...



@Leen: Niet helemaal; het gaat mij vooral om de vraag of het risico op het verkrijgen van informatie groter is als je die probeert te onttrekken uit een big data omgeving dan uit een andere omgeving. Risico is een relatie van impact en kans. Impact kan enorm zijn, maar of de kans dat ook is, is de vraag.

@EarlyBert: Leuke analogie; breng ik niets tegen in.

@Henri: Ik ben het zeker met je eens dat informatie die je uit big data haalt heel erg waardevol is, en zeker op een schadelijke manier gebruikt kan worden. Een groot deel van de gratis apps die je kan dowloaden voor op je smartphone hebben voorwaarden die zowat blind worden geaccepteerd door een gebruiker waarna de app-bouwer je hele telefoon inclusief contact base mag gebruiken.... Maar dat is geen stelen.... We geven met z'n allen heel veel informatie vrijwillig af en die is zeker heel veel waard en zal ook zeker als zodanig worden gebruikt. En de meeste gebruikers zullen dat pas beseffen als het te laat is. Ik blijf in twijfel trekken of de slimmerikken die in staat zijn om ongeoorloofd door big data omgevingen te struinen dat makkelijker doen dan ongeoorloofd dezelfde informatie uit andere omgevingen te halen.

@John, sympathiek dat je reageert aangezien ik minder sympathiek was :-)

Prikkelt me in ieder geval wel om er wat langer over na te denken. Een paar van deze gedachten:

> Op Microniveau is Big Data vaak minder gevoelige data mits je deze niet direct kan koppelen aan echte mensen want dan heb je een imago risico = niet veilig (en als er geen waardevolle gegevens in staan zoals Credit Card nummer in combinatie met meerdere gegevens)

> Als je maar een klein deel van de data op kan vragen valt hier inderdaad minder informatie uit te halen. Leuk als je wat waarderingen over aankopen kunt vinden, pas als je een grote set hebt kun je hier informatie uit ontlenen die waarde heeft. (+ voorwaarden uit het eerste punt)

> Gebruikers delen al zeer veel informatie publiekelijk pas in grote samenhang of alleen op individueel niveau heeft dit waarde. (in combinatie met punt 1 en 2).

Dus al met al zijn er wel wat dingen voor je verhaal te zeggen al blijf ik erbij dat een grote data verzameling vaak ook je schatkist is en volledige toegang een garantie is dat deze misbruikt gaat worden.

John,
Het zou aan mij liggen maar na 2-3 keer je artikel gelezen te hebben is het me niet duidelijk geworden wat je met dit artikel wilde zeggen!
Tevens zie ik een verschil tussen de definitie van jouw big data en die van andere mensen in andere artikelen.

Big data ontstaat in mijn optiek door twee situaties: 1) verzamelen van informatie die direct geen link en verbinding met elkaar hebben 2) verzamelen van informatie die wel met elkaar gelinkd zijn maar een oerwoud vormen.

In beide gevallen hebben we het niet over de hoeveelheid van data (zoals ik het hier en daar in je artikel lees) maar wel over de complexiteit en diversiteit van data en bronnen waaruit je informatie wil winnen.
Ik weet niet wat je met de volgende zin bedoelde: “Vanwege de omvang van big data, is het onmogelijk om die data in een applicatie te stoppen” Dit klopt naar mijn mening niet.
Een applicatie heeft nooit direct met big data te maken. Tussen een applicatie en big data is meestal een BI-laag. Deze laag zorgt voor presentatie van “informatie” uit big data in de gewenste vorm en formaat aan de applicatie. Dit betekent tevens dat de uitdagingen die je voor big data domein benoemd hebt niet echt meer als uitdaging gezien worden. BI is volop in beweging en ontwikkeling. Dit betekent dat wanneer in de komende jaren de echte big data gevormd is dan hebben we ook verschillende BI-mogelijkheden om dit te bestrijden.

Is big data intrinsiek veilig? Nee, naar mijn mening. Dat komt doordat de “informatie” uit big data toegankelijk kan zijn voor iedereen die beschikking heeft over een BI oplossing.

John,


Inderdaad gaat het niet om de nullen in de digitale hooiberg maar om de enen en het eruit (kunnen) halen hiervan is de worst die ons voorgehouden wordt. De Eiffeltoren die ons verkocht wordt als het gaat om publieke data in allerlei sociale media kanalen.
Stellen dat informatie veilig is in een berg data - hiding in plain sight - klinkt orthodox maar heeft grote overeenkomsten met steganografie. Grap is natuurlijk dat we proberen de geheimen eruit te halen en niet als een paashaas de eieren erin stoppen.

Hoewel data ook te manipuleren is, een kleine wijziging kan al tot andere conclusies leiden. Maar dat komt doordat kennis en vaardigheden tegenwoordig synoniem zijn aan ingeblikt vlees, de kunstmatige intelligentie waar we steeds meer op vertrouwen. Maar Godfried Bomans zei al eens:"Een statisticus waadde vol vertrouwen door een rivier die gemiddeld één meter diep was. Hij verdronk." Omdat we verdrinken in de data gaan we steeds meer vertrouwen op technologie zoals in sketch van Little Brittain.

ik ken er ook nog eentje :

Zoeken is intrinsiek onzinnig. Zoek je iets dat er al is, dan hoef je het ook niet te zoeken. Zoek je iets dat er niet is, dan hoef je het ook niet te zoeken.

big data. big hack?

Wat mij betreft toont dit artikel een hemeltergende naïviteit als het gaat om privacy en identiteits riciso's die slecht beveiligde (big) data met zich meebrengen. De auterur is blijven steken in de tijd van de mainframe als hij bijvoorbeeld stelt dat de data niet in een applicatie past en dus geen riciso genereert.
Kwaadwillenden, wie dan ook, hoeven niet in een fractie van een seconde antwoord - ze hebben de tijd en capaciteit om gerichte profielen te genereren uit data en daarme te doen wat ze goeddunkt.

Typisch geval van "Security by Obscurity"..

Big data zelf heeft geen waarde. Het gaat erom wie er informatie uit kan halen. Als je het open zet, zullen criminelen veel eerder de juiste queries uitvoeren dan de legitieme gebruikers.

@Technicus: Mee eens dat data zelf geen waarde heeft. Zoals ik aan geef in het artikel: "Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen". Het gaat er dus inderdaad om wie er informatie uit kan halen en wie de data open zet. M.i. zijn we als eindgebruikers voor een groot deel zelf verantwoordelijk voor het open zetten. Zoals ik ook richting Henri aangaf: We accorderen veelal blindelings allerlei voorwaarden voor toepassingen die vervolgens daarmee toegang krijgen tot meer data dan nodig is voor betreffende toepassing. Daarmee zetten we zelf de deur open.

@Willem: Je spreekt in je reactie over "slecht beveiligde (big) data". In het artikel wordt niet gepropageerd dat we data (al dan niet big) moeten open zetten. Sterker nog: Zoals ook aangegeven richting Technicus en Henri: Het open zetten van onze privacy gevoelige data doen we vaak zelf en daarmee maken we het criminelen natuurlijk wel heel erg makkelijk. En dat heeft dus niet zoveel te maken met big data. Een server buiten een DMZ op een goed bereikbare plek in je netwerk hangen is ook een slecht idee. Het verschil tussen beiden wordt bepaald door kans en impact.

@Reza: Ik zou de definitie kwestie van big data het liefst achterwege laten, juist omdat er zoveel variaties van in omloop zijn. Maar toch.... laat ik dan de definitie van Wikipedia pakken, voor wat die waard mag zijn: "big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications".

Op basis daarvan ben ik het dus met je eens dat complexiteit en diversiteit absoluut intrinsieke eigenschappen van big data zijn. En daarnaast lees ik toch ook dat omvang van de data en de relatie met toepassingen, echt intrinsieke eigenschappen van big data zijn. En dat zijn de eigenschappen waar ik in het artikel nader op in ga.

Dat nu vastgesteld hebbende, ga ik even terug naar de titel van het artikel "big data is intrinsiek veilig". Ik suggereer daarmee dat de intrinsieke eigenschappen van big data (dus o.a. de door jou genoemde complexiteit, diversiteit, en ook de door mij genoemde omvang en relatie met toepassingen) eigenschappen zijn die de veiligheid ten goede komen. Mijn mening is, op basis van de voorbeelden die ik in het artikel aangeef, dat dit een houdbare gedachte is. En zoals ik in de inleiding van het artikel aangeef vooral een "alternatief inzicht" is ten opzichte van wat je veelal rondom dit onderwerp hoort.

Als je vervolgens kijkt naar de reacties op het artikel dan gaan veel reacties over de beveiliging van de omgeving waarin big data wordt gebruikt en wat een crimineel allemaal voor schade aan kan richten als hij toegang heeft tot die omgeving. Prima natuurlijk, maar dat zegt niet zoveel over de intrinsieke eigenschappen van big data. Dat zegt naar mijn bescheiden mening wel iets over het gedrag van mensen die naief toestemming geven aan anderen om vanuit een (min of meer beveiligde) smartphone zomaar alle contact informatie te doorzoeken. Het zegt ook iets over het belang van het beveiligen van data (al dan niet big). Het zegt niets over de onveiligheid van big data. En daarmee denk ik het belangrijkste punt wel gemaakt te hebben. De onveiligheid wordt niet veroorzaakt door de data en haar intrinsieke eigenschappen, maar veel meer door de informatie die er uit te halen is, de manier waarop de omgeving beveiligd wordt en bovenal het gebrek aan awareness van gebruikers die zelf toegang geven tot hun "schatkist" zoals Henri Koppen in zijn tweede reactie aangeeft.

John,
Wat voor jou en mij complex en te divers is kan voor een crimineel (met de juiste tool en kennis) zeer overzichtelijk zijn. Daarom vind ik dat de door jou benoemde intrinsieke eigenschappen geen relatie hebben met dit onderwerp (veiligheid)
Voor de rest, ik kan je niet na het lezen van je reactie volgen! Je reactie (op mijn reactie) zie ik niet in lijn met de inhoud van je artikel. Ik ben de samenhang kwijt!

"Big data is dus intrinsiek veilig, juist omdat het zo big is."

"Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen."

Predicatenlogica: Er valt geen potentiele informatie uit big data te halen.

Expert
John de Voogd

John de Voogd
Head of Sales, Commercial Territory, Fujitsu. Expert van voor het topic .
Hele profiel

Lees meer over:
Vacatures

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×