Laat je niet zomaar misleiden door infographics en visualisaties

De ongeëvenaarde hoeveelheid aan data heeft er toe geleid dat data-analisten zich meer en meer wenden tot visuele voorstellingen van data. Dit soort “datavisualisaties” of “infographics” trekken meestal snel de aandacht omdat ze data een stuk interessanter kunnen weergeven dan met een droge tekst mogelijk is. Ze leveren bovendien nieuwe en interessante perspectieven op de wereld om ons heen.

Datavisualisaties kunnen echter eenvoudig gemanipuleerd worden en blijken vaak niet zo waarheidsgetrouw te zijn als misschien lijkt. Door data foutief weer te geven, aan te passen of te vervalsen kunnen datawetenschappers de publieke opinie sturen in hun eigen belang en daar zelfs van profiteren.

Het probleem is echter dat we van nature de neiging hebben om afbeeldingen eerder te vertrouwen dan tekst. We laten ons dus eenvoudig oplichten door visualisaties. Fastcodedesign heeft daarom drie stappen op een rijtje gezet die je kunt volgen om je niet zomaar te laten misleiden.

w640-3

1. Controleer hoe de data gepresenteerd wordt
De meeste subtiele manier waarop een visualisatie je kan oplichten is door bepaalde onderdelen te benadrukken die normaal niet zo zouden opvallen. Kleur is een populair middel om bepaalde data onder de aandacht te brengen. Als je bijvoorbeeld naar onderstaande kaart kijkt dan zie je dat Kentucky (de donkerste staat) en Utah (de lichtste staat) het eerst op zullen vallen.

w640-1

Als deze kaart het percentage rokers zou laten zien dan zou je concluderen dat het percentage rokers in Kentucky veel hoger ligt dan in Utah. De rauwe data laat echter zien dat 27 procent van de mensen uit Kentucky rookt en 23 procent van de mensen uit Utah; helemaal niet zo’n groot verschil dus. Kijk daarom eerst naar wat de kleuren precies betekenen voordat je een conclusie trekt.

Structuur is een ander populair middel om data op te laten vallen. In het staafdiagram hieronder zie je dezelfde data maar met een verschillend bereik op de y-as. Een simpele verandering aan de structuur kan er dus voor zorgen dat data er veel interessanter uit ziet. Let daarom altijd goed op waar de getallen in de visualisatie precies voor staan.

w640-2

2. Controleer de bron van de data
Data die verzameld is door een amateur bevat waarschijnlijk eerder fouten dan data die verzameld is door een professionele wetenschapper. Met een online zoekopdracht kun je makkelijk controleren of de bron betrouwbaar is in het verzamelen en verstrekken van informatie.

Controleer bovendien of de bron niet bevooroordeeld is. Een farmaceutisch bedrijf zou bijvoorbeeld data kunnen verstrekken waaruit blijkt dat hun nieuwste medicijn effectiever is dan het daadwerkelijk is en een politieke organisatie zou data kunnen manipuleren om hun tegenstanders in diskrediet te brengen. Als de data verstrekt is door een bevoordeelde partij, wees dan dus extra kritisch.

Over het algemeen kun je data vertrouwen die verstrekt is door de overheid, universitaire onderzoekscentra en non-partijdige organisaties. Data die verstrekt is door commerciële bedrijven, partijdige organisaties en activistische organisaties kun je beter kritisch bekijken en als er helemaal geen bron wordt vermeld dan is de visualisatie waarschijnlijk niet erg betrouwbaar.

3. Controleer hoe de data is opgeschoond
Veel datasets zijn zo uitgebreid dat ze eerst opgeschoond moeten worden voordat ze gebruikt kunnen worden. Als data echter té erg opgeschoond wordt dan kan dat ook leiden tot een foutieve visualisatie. Elke goede datavisualisatie zal daarom beschrijven hoe de data gemanipuleerd is vanaf de originele dataset tot de visualisatie die je voor je hebt.

Als deze beschrijving erbij zit, kijk dan naar de data die weggelaten is en beoordeel of dat wel redelijk is. Soms wordt data namelijk weggelaten omdat het in tegenstrijd is met hetgeen dat de auteur wilt overbrengen; niet echt een goede reden dus. Datatransformatie, data die geconverteerd is van het ene formaat naar het andere formaat, kan ook complicaties opleveren.

Tot slot worden statistieken vaak misbruikt in datavisualisaties. Een uitspraak zoals: “dodelijke aanvallen van haaien zijn dit jaar gestegen met honderd procent” lijkt alarmerend totdat je je bedenkt dat er vorig jaar maar één persoon is overleden na een aanval door een haai.

Ook vergelijkende statistieken zijn lastig. Als een enquête aantoont dat vijftig procent van de Latijns-Amerikanen en maar dertig procent van de Europeanen het leuk vinden om honkbal te kijken dan kan dat ook te maken hebben met het feit dat er bijvoorbeeld maar twintig mensen van elke etniciteit de enquête hebben ingevuld. Controleer dus altijd waar de cijfers precies op gebaseerd zijn. Als dit soort cijfers niet worden versterkt, bedenk dan hoe eenvoudig dit soort cijfers gemanipuleerd kunnen worden.

Controleer dus altijd hoe de data gepresenteerd wordt, waar de data vandaan komt en in hoeverre de data gemanipuleerd is om te vermijden dat je misleid wordt door een visualisatie.