Numrush

De visualisatie van elk idee in de geschiedenis

Schreven we gisteren al over het visualiseren van connecties tussen Wikipedia-artikelen, data wetenschapper Brendan Griffen gaat in zijn recente project “Graphing Every Idea in History” een stapje verder. Op basis van het “beinvloed door”-veld op vele duizenden Wikipedia pagina’s verzamelde Griffen een enorm netwerk van personen. Elke node in zijn grafiek is een persoon – ingedeeld op genre (kleur) – waarbij het formaat van de node de belangrijkheid van de betreffende persoon visualiseert. Een prachtige plaat, al realiseert Griffen zich ook dat er behoorlijk wat gaten in zijn werk zitten.

Wat Griffen’s werk in ieder geval mooi inzichtelijk maakt is de evolutie van een idee. Griffen: “It really is fascinating (to me at least) to start at one node and bounce along the connections to a distantly related someone else. People in philosophy influencing fantasy writers who influence comedians. It shows one thing above all: the evolution of ideas is a non-linear process. We too, are somewhere in this web, albeit at a smaller scale. We too, are the sum of many.” De analyst weet ook dat zijn werk met een korreltje zout mag worden genomen: “the graph is obviously biased towards Western ideologies and culture, it’s created from the datasets of dbpedia and so is intrinsically incomplete and community identification was done using an in-built module of Gephi and so I apologise if particular people of interest are grouped in a way you disagree with!”.

Toch levert het een indrukwekkende graph op, zeker als je de full-scale zoom bekijkt op deze site. Al met al is Griffen dan ook wel tevreden: “This work is just trying to demonstrate that by combining the power of new open-source tools and the vast quantity of the information on the Internet, one can create useful and informative networks.” En zo is het. Mocht je zelf aan de slag willen, Griffen heeft gebruik gemaakt van tools als Snorql en dpedia. Voor het verder filteren gebruikte hij onder andere deze decoder. Maar wellicht is het sneller als gewoon Griffen’s dataset gebruikt, die hij hier ter download heeft gezet!