De 7 mythes van Big Data

We schrijven er hier graag, met veel regelmaat en bijzonder veel enthousiasme over: data. En dan met name over de impact die (big) data op ons dagelijks leven kan en zal hebben. Maar er zijn altijd twee kanten van de medaille. Want voor alles wat Big Data wel kan, wat kan het dan precies niet?

Met de intrede van Big Data in ons leven, worden we kennelijk geconfronteerd met nieuwe, tot voor kort onbekende dilemma’s. Met allerhande factoren, waar vooral volume, variëteit en snelheid de bekendste van zijn, hebben we plotsklaps te maken.

Maar deze nieuwe stroom aan data brengt ons ook dichter bij de kern, de waarheid. Immers: data liegt niet, toch?Onderzoeker Kate Crawford van Microsoft noemt het “Big Data fundamentalisme”: ” The idea with larger data sets, we get closer to objective truth.

The hype becomes problematic when it leads to what I call “data fundamentalism,” the notion that correlation always indicates causation, and that massive data sets and predictive analytics always reflect objective truth.

Voor alles wat ‘Big Data’ is, is er ook iets te bedenken wat het niet is. Zes+één-bonus mythes over Big Data:

1. Big Data is nieuw

Helaas, Big Data is niet de nieuwste hype. Het is zelfs misschien wel de oudste hype van het moment. De eerste onderzoekspapers over Big Data en Big Data visualisatie dateren immers alweer van 1997, 1998 en 1999. Kern van die rapporten zijn vandaag de dag nog herkenbaar: inzicht en visualisatie.

2. Big Data is objectief

“De cijfers liegen niet”. We kennen de term allemaal. Maar hoewel ze niet liegen, hoeven ze niet altijd objectief te zijn. Een simpel voorbeeld: er werden vorig jaar zo’n 20 miljoen Tweets verstuurd rondom Orkaan Sandy. Genoeg om een beeld te krijgen van de reactie en emotie onder de gemiddelde Amerikaan, nietwaar?

Niet waar: van de 16% van de Amerikaanse bevolking met een Twitter-account (!) is het grootste deel jonger, stedelijker en gefortuneerder dan de gemiddelde inwoner van de getroffen gebieden. Wanneer de data sets groter worden, neemt het belang van context verder toe.

3. Big Data discrimineert niet

Data is niet kleurenblind, als je dat soms dacht. Een voorbeeld daarvan zie je dagelijks in je gebruik van Facebook. Want hoewel de profielen en tijdslijnen op het sociale netwerk worden ontdaan van bijvoorbeeld namen en exacte woonplaatsen in het kader van anonimisering, zijn algoritmes op basis van kruisverwijzingen in staat om met 95% accuratesse het ras van een profiel te bepalen.

Men is zelfs in staat om op deze manier leeftijd en sexuele voorkeur te berekenen. Alles om je te voorzien van de perfect gerichte advertentie.

4. Big Data maakt onze steden slimmer

Meer sensoren in het wegdek, extra slimme meters overal in het straatbeeld en alle data open voor iedereen. Het maakt onze steden allemaal slimmer. Of niet. want de informatie die beschikbaar komt wordt pas slim op het moment dat deze op een slimme manier wordt uitgelezen en ingezet. We kunnen dan wel meer meten, kwaliteit boven kwantiteit blijft key.

5. Big Data is anoniem

In het licht van alle discussies van de afgelopen dagen een heikel punt. Maar nog voor dat er uberhaupt werd gesproken over Prism, publiceerde Nature al dit rapport uit oktober 2012. Uit onderzoek van 1.5 miljoen geanonimiseerde telefoonoverzichten wist men door het bekijken van slechts 4 vaste datapunten met een zekerheid van 95% een gesprek terug te leiden naar een individu. Vier data punten, 95 procent.

Ter vergelijking: een vingerafdruk checkt op 12 data punten voor een volledige identificatie. Hoe meer we data aan elkaar knopen, hoe minder data punten een slim algoritme nodig heeft om zelfs een anonieme dataset terug te brengen naar een persoon.

6. Je hebt een opt-out

Net als bij nieuwsbrieven zou je verwachten dat je ook kunt aangeven niet te willen deelnemen aan de soort datamining die mogelijk is met de enorme data sets die gemaakt worden tegenwoordig. Niets is minder waar en daarvoor is een voorbeeld: Instagram veranderde afgelopen december hun gebruiksvoorwaarden om te zorgen dat zij onze foto’s wat breder zouden kunnen gaan delen.

Er was geen optie om je hier voor uit te schrijven, er was zelfs geen betaalde optie om je foto’s af te schermen.

Bonusmythe: Big Data is het nieuwe goud

Ik heb deze nu al zo vaak uitgesproken, dat het ook maar eens goed is om het in pixels vast te leggen: Big Data is niet het nieuwe goud. Als ik het dan in een catchy verhaal moet samenvatten, dan is Big Data de nieuwe olie. Ruwe olie, die met slim raffineren kan worden omgezet in een brandstof van allerhande zaken.

Maar die zonder de juiste bewerking uiterst ontvlambaar en zelfs vervuilend kan zijn. Het grote voordeel van zijn natuurlijk tegenhanger is overigens dat de bijproducten van het “raffineren van Big Data” weer kunnen leiden tot allerlei andere mooie inzichten, in plaats van afval.

Als we kijken naar de komende jaren, is het niet onze grootste uitdaging om data te gaan verzamelen, maar om de juiste selectie te maken en deze op de beste manier te raffineren, remixen en visualiseren. Voor velen van ons zal het de komende jaren steeds belangrijker worden om te bepalen hoe jij data kan inzetten om betere verhalen te vertellen, producten te maken of je dienst te verbeteren.

En voor de rest van iedereen? Kijk eens om je heen om te zien waar het je leven nu al beïnvloedt, waar het je leven kan gaan beïnvloeden en hoe je daar tegenover staat.

Aangezien we de ontwikkeling niet gaan tegenhouden, is het verstandig om alvast met zijn allen te bedenken hoe we er mee om moeten gaan in de jaren die nog komen gaan.