Twitter wordt al jaren geroemd om zijn snelle berichtgeving en de mogelijkheid om nieuws als eerste de wereld in te brengen. Iedereen kent het voorbeeld van de Hudson river vliegtuigcrash bij Manhattan, of de tweet die de luchtaanval op Osama Bin Laden als eerste (onwetend) meldde:
Toch is het moeilijk om optimaal gebruik te maken van dit fenomeen. Hoe herken je als journalist de relevante tweets in de enorme hoeveelheid data, terwijl je je concurrentie voorblijft?
Wiskundigen van de Vrije Universiteit Amsterdam hebben eind vorig jaar een systeem gelanceerd dat deze noot kraakt. Het is inmiddels in gebruik genomen door nu.nl, dat volgens hoogleraar ‘Applied Probability’ Sandjai Bhulai hiermee dagelijks 2 tot 3 nieuwswaardige berichten oppikt die nog niet via andere bronnen binnen waren gekomen. Hij presenteerde het deze week op het Webanalytics Congres 2013.
Hoe werkt het? Nederlandse tweets worden herkend met een set keywords die zijn geleend van de letterenfaculteit, en deze worden real-time verwerkt. Het systeem registreert combinaties van woorden. Aan de hand van het door Bhulai’s team van Data Scientists in kaart gebrachte patroon van viraliteit zijn algoritmes gebouwd, die potentieel virale combinaties in een vroege fase oppikken. Tenslotte worden ze gevisualiseerd in een treemap die elke 5 seconden ververst. De journalist voor het scherm herkent combinaties met potentiele nieuwswaarde, en volgt deze op.
De potentie van zo’n systeem is groot, en toepassingen gaan natuurlijk veel verder dan de nieuwswereld. Voor brands kan het onschatbare waarde hebben in vroege social media crisisherkenning en brengt het de real-time marketing droom dichterbij. Bhulai deelt zijn waardevolle kennis en ervaring, in lijn met de universiteitsfilosofie, met ons allen. Nederlands data science op z’n best.