Open data miljoenen taxiritten bleek niet anoniem

Weten hoeveel fooi Hollywoodsterren betalen aan taxichauffeurs? Of bent u benieuwd waar de bezoekers van Larry Flynt’s Hustler Club wonen? Dankzij open data kunnen deze vragen worden beantwoord. Met dank aan NYC Taxi & Limousine Commission.

Hoe een goedbedoelde vrijgave van ‘geanonimiseerde’ data uitliep op een privacyramp.

Data over New Yorkse taxi’s

De Amerikaan Chris Whong noemt zichzelf een ‘civic hacker’. Iemand die met behulp van overheidsdata IT-toepassingen maakt om maatschappelijke problemen mee op te lossen. Zijn interesse was meteen gewekt toen hij het filmpje “Taxi!” zag, dat een datavisualisatie is van 10.000 taxiritten in New York.

Mochten deze data als open data ter beschikking worden gesteld? Hij diende hiervoor een verzoek in bij de NYC Taxi & Limousine Commission (TLC) met een beroep op de Amerikaanse versie van de Wet Openbaarheid van Bestuur. De TLC is een agency van de gemeente New York en reguleert de taximarkt van de bekende ‘yellow cabs’.

Whong’s verzoek werd ingewilligd. Hij ontving de ‘fare data’ en ‘trip data’ van 173 miljoen taxiritjes die in 2013 in New York zijn gemaakt. De fare data bevatten ondere andere gegevens over de prijs en fooien die de taxichauffeurs betaald kregen, terwijl de trip data vooral locatiegegevens bevatten waarmee de route van een taxi geconstrueerd kan worden.

De TLC anonimiseerde delen van de datasets die zouden kunnen herleiden tot identificatie van personen, zoals de taxichauffeurs. Althans, dat dácht de TLC.

Geanonimiseerde data bleek niet anoniem

Software-ontwikkelaar Vijay Pandurangan bekeek de datasets en zag dat de gebruikte anonimiseringstechniek niet feilloos was. Het gaat om de MD5 hashing-techniek.

Deze techniek houdt in dat bijvoorbeeld het getal “0” wordt omgezet naar een reeks tekens zoals “CFCD208495D565EF66E7DFF9F98764DA”. Deze reeksen waren zichtbaar in de taxidata en zouden niet tot identificatie moeten leiden.

Het probleem met de MD5-techniek is dat  men met softwaretools betrekkelijk eenvoudig de reeksen kan omzetten naar de oorspronkelijke tekens.

Privacy-inbreuk van taxichauffeurs en reizigers

Pandurangan beschrijft op zijn blog hoe hij de data heeft kunnen de-anonimiseren. Hij concludeert:

“This anonymization is so poor that anyone could, with less then 2 hours work, figure which driver drove every single trip in this entire dataset. It would be even be easy to calculate drivers’ gross income, or infer where they live.”

De locatiegegevens van een taxichauffeur en diens inkomen zijn beide voorbeelden van persoonsgegevens. De privacywetgeving is dan van toepassing en de data mogen dan niet zomaar worden gebruikt.

Naast taxichauffeurs ontdekte de student Anthony Tockar dat ook passagiers geïdentificeerd kunnen worden. Hij zocht hiervoor eerst online naar foto’s van Hollywoodsterren die uit een yellow cab stappen. Die foto’s tonen ook de taxi’s met het zichtbare unieke taxinummer (zie afbeelding).

Dit stelde Tockar in staat om met behulp van de dataset de taxirit van twee Hollywoodsterren te identificeren. De dataset toonde hoeveel fooi zij gaven (niets).

Bekende Amerikanen zijn gewend om in de spotlight te staan en liggen misschien niet wakker van deze onthullingen. De privacyramp werd een stuk ernstiger toen Tockar met de data ook het reisgedrag van gewone burgers kon achterhalen.

Zo bleek het traceren van taxiritten vanaf Larry Flint’s Hustler Club naar iemands adres eenvoudig. Via Google wist hij wie er op de adressen wonen.

Foto: "New York Taxi" door Craig Cloutier (CC BY-SA 2.0)
Foto: “New York Taxi” door Craig Cloutier (CC BY-SA 2.0)

Commentaar

Anonimiseren kan een nuttig middel zijn bij het ontnemen van het privacygevoelige karakter van data. Maar de praktijk toont dat succesvol anonimiseren zeer lastig is.

Zelfs bij een project – bijvoorbeeld in de zorg (PDF) – waarin aandacht is besteed aan privacy, blijft het risico op de-identificatie bestaan en daarmee het risico op privacyschendingen.

Het voorbeeld van de New Yorkse taxidata is geenszins een incident. Het internet biedt tal van databronnen en tools om ogenschijnlijk anonieme data te de-anonimiseren. Ook de toegenomen computerkracht speelt een belangrijke rol.

Werd voorheen het analyseren van grote datasets voor de gemiddelde mens gezien als een onwaarschijnlijk scenario (dit proces duurt te lang, kost teveel computerkracht, etc.), nu kan iedereen grote datasets analyseren om persoonsgegevens te achterhalen.

Stanford-onderzoeker Jonathan Mayer zei het al: “The idea of personally identifiable information not being identifiable is completely laughable in computer-science circles”. Misschien moeten we accepteren dat (open) data bijna altijd kunnen ‘verkleuren’ naar privacygevoelige data. De bal ligt dan bij beleidsmakers, burgers en andere betrokkenen: hoe gaan we om met deze constatering?

Header foto: “times square taxi” door f minus (CC BY 2.0)