Om kunstmatige intelligentie te trainen heb je veel data nodig. Door het computerprogramma zoveel mogelijk van deze informatie te voeren, leert hij namelijk om met iedere denkbare situatie om te gaan. Een computer leren om kattenfoto’s te herkennen? Dan heeft ie eerst duizenden kattenfoto’s nodig. Het is daarom zo interessant dat Facebook een gigantische dataset beschikbaar heeft gesteld. We kunnen een bestand van maar liefst 1,6 gigabyte downloaden, met daarin alleen maar kinderverhalen. Ideaal om een computer mee te leren om deze kinderboeken te identificeren.
Facebook heeft de dataset gebruikt om zelf een kunstmatige intelligentie te trainen, en wil andere ontwikkelaars nu ook de kans geven. Dat is belangrijk, want taal is volgens Mark Zuckerberg verdraaid lastig voor een computer:
Taal is één van de meest complexe dingen voor een computer om te begrijpen. Voor mensen is het best makkelijk om te raden hoe een zin moet eindigen, maar machines hebben er veel meer moeite mee. Computers waren tot nu toe alleen in staat om simpele woorden te voorspellen, zoals het Engelse “on” of “at”. Simpele werkwoorden zoals “rennen” en “eten” lukt ook soms, maar onderwerpen zoals “bal”, “tafel” of namen voorspellen is een stuk lastiger.
Onze onderzoekers hebben aan een computer geleerd om de context van een zin te doorgronden en moeilijkere woorden te voorspellen – zoals onderwerpen en namen. Dat zijn vaak de belangrijkste onderdelen van zitten. De voorspellingen van de computer waren het beste als er genoeg context rond de zin bekeken kon worden.
Andere techbedrijven stelden ook al grote datasets voor kunstmatige intelligentie beschikbaar. Yahoo bracht onlangs bijvoorbeeld de “grootste dataset ooit” voor kunstmatige intelligentie uit, met daarin 13,5 terabyte aan informatie afkomstig van nieuwswebsites.