Managed hosting door True

Pas op voor homeopathische data analytics

 

Computable Expert

Wouter van den Berg
Sr Business consultant, Everest. Expert van Computable voor de topics Management, Beheer en Maatschappij.

Voorspellende modellen worden steeds vaker gebruikt. Bijvoorbeeld om te bepalen of iemand dreigt in betalingsachterstand te komen of dat zijn vergunningsaanvraag wat meer aandacht verdient dan gemiddeld. Vaak zijn de onderliggende modellen keurig statistisch gevalideerd. Dat lijkt een hele vooruitgang ten opzichte van het onderbuik gevoel van de gebruiker. Maar kan de computer zijn onderbuikgevoel beter onderbouwen dan een mens?

Als student aan een bèta faculteit werd ons het vak statistiek bespaard. We zouden immers toch niet gaan experimenteren op ratjes en statistiek is ook maar wiskunde. En zo komt het dat ik vandaag de dag nog regelmatig Wikipedia erop na sla hoe het ook al weer zat met kansverdelingen of Anova (analysis of variance).

Voorspellende modellen

Overtuigd van het feit dat de hele wereld de stof over data voorspellende modellen beter beheerst dan ik, stond ik dus even met mijn mond vol tanden toen ik de vraag kreeg: 'Ja, mooi dat voorspellende model, maar hoe weet je waarom hij een persoon in die categorie stopt?'. Nota bene was het een toezichthouder die de vraag stelde. Je zou denken dat die het juist toejuicht dat nattevingerwerk vervangen wordt met modellen die onderbouwd zijn met keiharde data. Probeer maar eens een medicijn op de markt te brengen zonder statistisch gevalideerd onderzoek!

Toch slaat de vraag van de toezichthouder de spijker op de kop. Voorspellende modellen - of het nu gaat om lineaire regressie, support vector machines of neurale netwerken – vinden verbanden. En die verbanden zijn niet altijd oorzakelijk. Hoe ga je dan uitleggen dat je iemand onder een vergrootglas legt, op basis van een score uit dat model?

Risico’s bepalen aan de hand van data

In 2010 heeft de overheid in de VS onderzocht of creditcard maatschappijen het koopgedrag van hun klanten gebruiken om bijvoorbeeld kredietruimte te beperken of om rentes te verhogen. Veel maatschappijen deden dat. Bijvoorbeeld wanneer een creditcardgebruiker een enthousiaste gokker blijkt te zijn. Maar soms ook omdat een model een hoge risicoscore aangaf op basis van aankopen uit het verleden. Een probleem daarbij is dat hier sprake kan zijn van discriminatie. Het model bepaalt niet op basis van huidskleur dat je een hoog risico loopt, maar kan (onterecht) tot de conclusie komen dat er een hoger risico kleeft aan álle mensen die inkopen doen bij een bepaalde winkel of in een bepaalde wijk.

Mensen die viltjes kopen om onder tafelpoten te plakken vormen een lager risico, maar is dat omdat ze zuiniger zijn op hun spullen? Het model verklaart het niet. En wat te denken van het sterke verband (94,7 cprocent correlatie) tussen de consumptie van kaas (per hoofd van de bevolking) in de VS en het aantal Amerikanen dat overlijdt doordat ze verstrikt raken in beddengoed?

Voorzichtig omgaan met scores

Kenniswerkers die metertjes en stoplichten op hun dashboard zien, moeten dus verdraaid goed het verschil begrijpen tussen correlatie en oorzakelijk verband. Dashboards moeten dat verschil ook duidelijk aangeven. Sommige stoplichten zijn gebaseerd op harde feiten en logische verbanden. Als er slechts sprake is van correlatie moet je extra voorzichtig zijn om te acteren op een ‘slechte’ score. Mensen verdienen het niet om in een hokje gestopt te worden op basis van statistische verbanden, in een kleine steekproef met indirecte verbanden, die gevonden wordt in data van bedenkelijke actualiteit en kwaliteit. Lees voor gebruik de bijsluiter.

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/5687329). © Jaarbeurs IT Media.

7


Lees meer over


 

Reacties

Het is en blijft statistiek. Dat betekent dat er een kans is dat iets gebeurd. Om even een voorbeeld te geven, een binominale verdeling. De kans op kop of munt, die is fifty-fifty.
Als jij met 70% zekerheid kan voorspellen dat het kop is, dan maak je dus winst, want in plaats van dat je het 50 op de 100 keer goed hebt heb je het nu 70 op de 100 keer goed.
Dat is een verbetering.
Die toezichthouder zou een cursus statistiek moeten volgen i.p.v. een mening geven over iets waar hij kennelijk geen verstand van heeft.

Bedankt voor dit artikel, hopelijk blijven meer mensen alert.

Ik propageer vaak om dit boekje dat overigens vrij (en legaal) van internet te halen is.
"How to lie with statistics" van Darell Huff uiit 1952.

"Big data" in de handen van amateur-statistici is een tikkende tijdbom, net als AI, alleen is big data al realiteit en AI duurt nog even.

Een goed artikel. Maar de waarschuwing aan het eind is overbodig, omdat bedrijven die een doelgroep uitsluiten op basis van een foute analyse, dat terug zullen zien als winstdaling en een verslechterde concurrentiepositie, omdat een ander bedrijf die groep gaat bedienen. Het is in het eigen belang om bij dit soort analyses juist geen vergissingen te maken.

@Jan
Erg leuk en leesbaar boekje inderdaad. Bedankt voor de tip!

Dit is van alle tijden en statistiek (en voorspellingen) blijven altijd "zacht", anders was rijk worden wel heel gemakkelijk geworden.

Wel aardig in dit kader is de data analytics van IBM (Watson). Daarin kun je data stoppen (Veel kolommen is belangrijker dan veel rijen) die maakt dan een analyse voor je met uiteindelijk 3 belangrijkste aanbevelingen op basis van een (natuurlijk) gestelde vraag. Doordat je die aanbevelingen stap voor stap terug kan lopen zie je in feite ook de redenering. En dat is uiteindelijk het punt.

Uit de statistiek komt een heel duidelijke significantie naar voren, dit is in feite een clue, maar op basis van alleen de clue zou je geen beslissingen moeten nemen, hooguit sterke suggesties.

Om het terug te slaan op het voorbeeld: Bij het goedkeuren van een credit zou het voorspellende vermogen niet finaal mogen zijn. 99% procent is namelijk geen 100% en een false positive is heel kwalijk in deze.

Zo zou een voorspellend systeem wel een bepaalde advertentie mogen tonen, maar niet mogen bepalen die iemand geen toegang krijgt op basis van voorspellingen.

1954, Jan

Henri, velen praten over de paretoverdeling, weinigen weten waar dat voor stond, nog minder snappen waarom deze beter vooral in overdrachtelijke zin gebruikt kan worden.
Zolang de meesten niet weten wanneer een gaussverdeling bij de populatie of het model past, of zelfs niet eens weten wat een bepaald type verdeling is, kunnen ze beter van statistiek afblijven.

Statistieken liegen niet, would be statistici doen niet anders.

Jaap, ik ben geen statisticus, al is het vreselijk interessant, ik ben ook geen wiskundige, ook interessant. Misschien is statistiek in zichzelf zo zuiver als wiskunde, alles er omheen zeer zeker niet. Leuk als je prachtige modellen hebt, maar ik heb één opmerking over modellen en die komt van George Box "All models are wrong, but some are useful". Met andere woorden ieder model is een versimpeling van de werkelijkheid.

Hoe komen de feiten tot stand? Wie verzamelt de feiten? Zijn de feiten een goede presentatie van alle feiten die gelden voor de statistiek.

Statistieken liegen niet is helaas een versimpeling van de werkelijkheid... dan zou het CBS namelijk geen fouten maken, daar zitten immers experts, de praktijk wijst echter anders uit...

1954, Jan

Henri, velen praten over de paretoverdeling, weinigen weten waar dat voor stond, nog minder snappen waarom deze beter vooral in overdrachtelijke zin gebruikt kan worden.
Zolang de meesten niet weten wanneer een gaussverdeling bij de populatie of het model past, of zelfs niet eens weten wat een bepaald type verdeling is, kunnen ze beter van statistiek afblijven.

Statistieken liegen niet, would be statistici doen niet anders.

Henry, zonder basiskennis van statistiek, of inzicht in de te onderzoeken populatie of het bedachte model, is het werken met statistische tools niet meer dan tijdverdrijf. Dan heb je geen idee of een model de werkelijkheid voldoende benaderd, dan wel dat je met garbage in, garbage out (GIGO) bezig bent.

Redactie, ik post mijn reactie één keer, maar zie deze meerdere keren terug, ook nadat een andere lezer op mijn post heeft gereageerd en ik intussen heel wat anders doe. En dit is bepaald niet de eerste keer dat het bij jullie misgaat. Haal s.v.p. de door jullie gegeneerde herhalingen weg, niet die van mij. Dan is de discussie beter te volgen door de lezer.

@Jaap:
Jij zegt dit: "Statistieken liegen niet, would be statistici doen niet anders."

Wat boeit een normaalverdeling als jou situatie anders is? En een gemiddelde is een gemiddelde, toch? Of niet, zoals met ongewogen en gewogen gemiddelden...

Daarnaast is statistiek om achteraf te concluderen dat het rouletteballetje de helft van de keren op rood komt en de andere helft op zwart anders dan om de statistiek te gebruiken om te voorspellen dat het nu echt wel rood moet worden als het al 10 keer zwart is geweest.

Geen statistiek op een bèta opleiding? Dat is vrij apart. Hoe kan je dan meetresultaten met 99,73% zekerheid presenteren?

Anyway, Als je nog meer interessante stof over dezelfde stof in dit artikel op Wikipedia wil lezen, dan is dit ook nog een leuk: https://nl.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc

Inderdaad 1954.
Statistiek gaat over groepen, niet over individuen. Individueel is het anders. Je wint in de lotto of niet, dus 50% kans.
Die statistikus waadde in een rivier van gemiddeld 20cm diep en verdronk jammerlijk.

Momenteel kun je een statistiek bestellen met het door jouw gewenste resultaat, het is een marketing tool geworden, ook op Computable tref je dit soort onderzoeken.

Frank, veel bedrijven kennen de individuele klant niet en willen met behulp van statistiek een voorspelling doen over een selectie van de populatie; wie levert waarschijnlijk geld op en wie niet. Dan gebruiken ze tools om (big) data te analyseren. Ze gebruiken postcodegebieden als eenheid, terwijl de sociaal economische grenzen anders kunnen liggen. Maar als ze uitgaan van bijvoorbeeld een normale verdeling situatie, terwijl die situatie anders is, dan zorgt dat voor extra missers. Ze kunnen nog meer goede (potentiële) klanten ten onrechte gaan uitsluiten (zoals in het voorbeeld van Henri Koppen) en andersom meer verkeerde klanten aantrekken. Het gaat bij het gebruik van statistiek dus niet om wat boeiend is, maar om wat relevant is voor het bedrijf.
Dat is niet iedereen duidelijk en daar maken oplichters gebruik van, zoals Jan van Leeuwen aangeeft. Je kan marktcijfers kopen waar je als klant weinig tot niks mee kan en vaak niet eens een te verifiëren waarde hebben. Met deze windhandel is veel geld te verdienen (en dus te verliezen door de afnemer).

Jaap, ik werk zelf ook met big data. Op basis van verschillende zaken maak je klantprofielen. Dat kan postcode zijn, maar vaak is het iets anders; klanten tikken hun postcode doorgaans niet in als ze een rolletje drop kopen!

Als je alle data verzameld hebt, en vanuit verschillende hoeken bekeken wat klantprofielen hebt aangemaakt, dan ga je iets slims doen met de data. Verander iets in assortiment, prijs, ..., en kijk hoe de klant erop reageert. Als dat is zoals je had voorspeld, dan was je model goed, klopt het niet, dan was je model fout.

Mooi Frank, maar dan weet je nog steeds niet of je model goed is. Neem het bekende voorbeeld: baby’s worden door de ooievaar gebracht. Er komen meer ooievaars en het aantal baby's neemt toe. Klopt het model dan? Voor Noord-Afrika geldt een omgekeerde model; meer baby's, meer voedsel nodig, meer voedselafval, meer afvaletende ooievaars.
Modellen kloppen wel vaker niet. Als ik even geen adblockers gebruik, dan krijg ik allerlei reclames te zien. Die passen meestal totaal niet bij mijn wensen of eerdere keuzes. De modellen van die providers kloppen niet.

Maaruh, wat is er nu homeopatisch aan het hele verhaal?

Gewoon blijven verdunnen, pavake, dan wordt het vanzelf homeopathisch!

Kan hier iemand wat statistiek op los laten?
---
Een speciale commissie van de WHO heeft zich de afgelopen twee jaar verdiept in obesitas bij jonge kinderen. In het eindrapport staat dat er veel kinderen opgroeien in een milieu waar aankomen en overgewicht aangemoedigd wordt.

Reclame voor ongezond eten en drinken is een belangrijke oorzaak van overgewicht, met name in de ontwikkelingslanden, zegt de WHO.

http://nos.nl/artikel/2082800-who-steeds-meer-kinderen-te-dik-in-armere-landen.html

@Henri ... een mooi voorbeeld van een conclusies en woordkeuzes.

Immers, van reclame wordt je niet dik, hiervoor moet je die producten toch echt consumeren, zo is mijn ervaring.

PaVaKe, precies mijn gedachte, maar misschien was dit wel een poging tot een root-cause-analysis.

Kinderen zijn te dik.
Waarom zijn kinderen te dik?
Kinderen zijn te dik omdat ze teveel energierijke producten eten zoals snoep en frisdrank.
Waarom eten kinderen teveel energierijke producten eten zoals snoep en frisdrank?
Omdat deze kinderen opgroeien in een milieu waar aankomen en overgewicht aangemoedigd wordt.
Hoe ontstaat een milieu waar aankomen en overgewicht aangemoedigd wordt?
Omdat er zoveel reclame over wordt gemaakt en daarmee de norm wordt.

hahaha, toch kan ik nergens vinden hoe ze dit onderzocht hebben en nu wordt het wel als waar de wereld in geslingerd.

Wellicht omdat ze dachten dat statistieken niet liegen ;-)

Sorry Henri, het is niet alleen snoep.
Veel te veel producten bevatten enorme hoeveelheden verborgen calorieën.
Wie yoghurt met vruchten wil moet een yoghurt kopen en vruchten en zelf mengen, de kant-en-klaar bekertjes bevatten namelijk tot zes klonten suiker extra.
Lees maar eens bij foodwatch.

@Jan: en met homeopatische vruchtenyoghurt krijg je minder verborgen calorieën binnen dan zeker?

Nu snap ik eindelijk het stukje "homeopatisch" in de titel van het artikel.

Volgens zwitserse onderzoekers berust het effekt van homeopathie op het placebo-effekt, misschien hier ook.

Jan (Nerd) van Leeuwen,
Henri bedoelde het komisch en dat was / vind ik het ook.


Vacatures

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×