Yahoo heeft een gigantische dataset met gebruikersgegevens beschikbaar gesteld voor onderzoekers: maar liefst 110 miljard online interacties staan in een bestand van 13,5 terabyte opgeslagen. De data kan worden gebruikt om onderzoek te doen naar ‘machine learning’, oftewel kunstmatige intelligentie die zelf dingen kan leren en beslissen.
De data is afkomstig van meerdere nieuwssites, waaronder Yahoo News, Yahoo Sport en Yahoo Finance. Wees overigens maar niet bang dat Yahoo daarmee je privacy zwaar schendt, volgens het internetbedrijf is alle informatie volledig geanonimiseerd, waardoor de onderzoekers niet specifiek jouw data erbij kunnen pakken.
De gegevens laten wel zien hoe mensen een nieuwssite gebruiken. Waar wordt op geklikt en hoe wordt er naar een site gekeken? Het staat allemaal in de gigaset data, mits onderzoekers de tijd nemen om deze te doorgronden.
Op basis hiervan kan een softwareprogramma leren om goed om te gaan met vergelijkbare websites, of met andere situaties waar deze kennis zich voor zou lenen. Bij machine learning krijgt een programma namelijk een grote hoeveelheid data over eerdere (menselijke) keuzes gevoerd, zodat de software kan leren waar al deze keuzes op zijn gebaseerd. Hoe meer data, hoe beter een computer dit snapt. En hoe beter de computer leert om dezelfde soort keuzes te maken.