Numrush

Apple gaat je data gebruiken om algoritmes te trainen zonder je privacy aan te tasten

iOS 10 downloaden

Kunstmatige intelligentie wordt een steeds belangrijker onderdeel van de apparaten en diensten die we dagelijks gebruiken. Google en Facebook zijn daar enorm goed in, dankzij de ongelofelijke hoeveelheden data die ze van ons verzamelen waarmee ze hun algoritmes kunnen trainen. Het is bijvoorbeeld geen geheim dat Google Photos kan herkennen wat er op onze foto’s staat doordat het al onze foto’s en ons zoekgedrag naar afbeeldingen heeft kunnen gebruiken.

Maar naast Google en Facebook hebben we natuurlijk Apple. Het bedrijf dat zich sinds enkele jaren (en zeker het afgelopen half jaar) profileert als het techbedrijf dat je privacy beschermt. Apple investeert daarom veel in onderzoek – en neemt startups over – die bezig zijn met het toepassen van deep learing technologie op devices in plaats van in de cloud.

Op die manier kan Apple vanaf iOS 10 bijvoorbeeld herkennen wat er op je foto’s staat door analyse van je foto’s, lokaal op je telefoon. Apple houdt ook je locatie bij en weet wat je meest bezocht plekken zijn. Deze informatie wordt gebruikt door diensten als Siri en straks ook door een slim QuickType-toetsenbord, maar wordt niet opgeslagen of geanalyseerd in de cloud en staat enkel lokaal opgeslagen op je iPhone.

Je locatiedata is dus zo veilig als je toestel is, terwijl Google je complete locatiehistorie op zijn servers opslaat binnen Google Maps. En daar hebben inlichtingendiensten of criminelen misschien wel interesse in… Google gebruikt deze data geanonimiseerd zodat je kunt zien wanneer het druk is in een restaurant of winkel. Voor Apple is dat lastig, want het bedrijf geeft de voorkeur aan privacy.

Differential privacy

Laat je deep learing-algoritmes lokaal hun werk doen met data die enkel lokaal is opgeslagen dan heb je een probleem: je hebt grote datasets nodig om algoritmes te trainen. Apple kan met zijn privacybeloftes natuurlijk niet stiekem toch massaal gebruikersdata gaan analyseren. Toch gaat het bedrijf dat doen, bekende het gisteren in de WWDC Keynote, maar dan op een privacy vriendelijke manier.

Craig Federighi, senior vice president op het gebied van software engineering, legde uit dat Apple dit gaan doen middels differential privacy:

Differential privacy is een onderzoeksveld op het gebied van statistieken en data-analyse, dat gebruik maakt van hashing, subsampling en het toevoegen van ruis om crowdsourced learning mogelijk te maken, terwijl de data van individuele gebruikers compleet privé blijft. Apple heeft erg belangrijk werk verricht binnen dit vakgebied om differential privacy op grote schaal uit te rollen.

Exacte details over hoe Apple dit precies doet ontbreken nog, maar het komt er op neer dat Apple zoveel mogelijk informatie over een groep mensen probeert te verzamelen, terwijl het zo min mogelijk te weten kan komen over individuele personen. Dus bijvoorbeeld: Apple heeft een dataset met ook data van mij erin, waar uit af te leiden is bij welke restaurant mensen die zoals ik -die dol zijn op hamburgers- het liefst gaan eten op zaterdagavond. Alleen de data over mijn restaurantbezoeken die is opgeslagen, is nooit en te nimmer terug te leiden naar mij als persoon.

Dat doet het bedrijf dus onder meer door data versleuteld te analyseren, door slechts een heel klein deel van de data per gebruiker te gebruiken en door de data bewust te mengen met nepdata. De truc is natuurlijk om dat te doen op zo’n manier dat de resultaten van het trainen van algoritmes er niet onder lijden.

Wiskundig bewijs

En voor wie denkt dat het een marketingverhaal is: nee. Wetenschappers hebben bewezen dat de data niet terug te herleiden is naar een individu. Aaron Roth, hoogleraar informatica aan de Universiteit van Pennsylvania, zegt tegen Wired:

Met een grote dataset die bestaat uit data van personen, kun je met een machine learning algoritme statische inzichten uit de database als geheel laten halen, maar je wilt voorkomen dat mensen of hackers van buitenaf specifieke data over personen in de dataset kunnen achterhalen. Differential privacy zorgt er voor dat je inzichten uit grote datasets kunt halen, maar met wiskundig bewijs dat niemand iets kan leren over een persoon.

En voor de duidelijkheid: differential privacy is iets anders dan enkel het anonimiseren van data. In de praktijk is door geanonimiseerde data slim te combineren alsnog informatie over specifieke personen te achterhalen. Hiervan bestaan inmiddels genoeg praktijkvoorbeelden. Als de technieken van differential privacy goed worden toegepast is dit bij deze aanpak gegarandeerd onmogelijk.

Deze techniek is natuurlijk niet alleen interessant voor Apple, maar ook voor nog veel nuttigere toepassingen. Stel je bijvoorbeeld voor dat er op deze manier grootschalig medisch onderzoek kan worden gedaan waarmee daadwerkelijk ziektes kunnen worden genezen! Het grote probleem daarbij blijft uiteindelijk echter vooral vertrouwen. Het bewijs dat bij het afgeven van data aan alle voorwaarden van differential privacy wordt voldaan, is immers lastig te leveren.