Wie een voorbeeld zoekt van “Big Data” komt al snel uit bij Twitter. Logisch, want het microblog platform is een ultiem voorbeeld van exponentieel groeiende data, onder andere dankzij gemakkelijk delen. De mogelijke onderzoeken op die dataset zijn dan ook haast ontelbaar en dus is het niet meer dan logisch dat het Amerikaanse sociale netwerk een aantal data wetenschappers in dienst heeft. Een van hen, Edwin Chen, deed recent een onderzoek naar het gebruik van de woorden “pop”, “soda” en “coke” voor het omschrijven van frisdrank. Waar dat eerder al uit Amerikaanse datasets werd gehaald, had Chen een iets bredere scope: hij bracht het voor de hele wereld in kaart.
In de blogpost op zijn site legt Chen uit hoe hij te werk is gegaan: “I sampled geo-tagged tweets containing the words “soda”, “pop”, or “coke”, performed some state-of-the-art NLP technology to ensure the tweets were soft drink related (e.g., the tweets had to contain “drink soda” or “drink a pop”), and tried to filter out coke tweets that were specifically about the Coke brand (e.g., Coke Zero).”
Nadat Chen zijn data op de kaart van de Verenigde Staten had geplot, ontdekte hij dat er niet veel was verandert ten opzichte van het eerdere onderzoek: het zuiden hangt naar “Coke”, waar het zuid-Oosten en uiterste Westen hangen naar “Soda”. Centraal Noord-Amerika gebruikt vooral de term “Pop”. Opvallender werd het toen hij zijn data ging plotten op de wereldkaart:
Het woord “pop” bleek eigenlijk alleen nog maar gebruikt te worden in Noord Amerika, terwijl de rest van de wereld neigt naar “Coke”, wat volgens Chen alles van doen heeft met de sterke associatie met het merk Coca-Cola.
Meer informatie vind je in het artikel van Edwin Chen. Wil je zelf aan de slag met geografische data? Check dan deze tamelijke in-depth whitepaper van Carnegie Mellon!