Wedstrijd DARPA geeft inzicht in hoe goed bots te onderscheiden zijn van mensen

Het is één van de grootste zichtbare problemen van Twitter: bots. Ze spammen, vissen naar mensen die op linkjes klikken en kunnen zelfs het publieke debat beïnvloeden. Vooral dat laatste is volgens het Amerikaanse Ministerie van Defensie schadelijk.

Daarom schreef de DARPA, het research- en ontwikkelcentrum van het Amerikaanse Ministerie van Defensie, vorig jaar een wedstrijd uit om erachter te komen hoe deze bots het beste getackeld kunnen worden. Over een periode van vier weken werden teams uitgedaagd om een onbekend aantal bots uit een discussie van meer dan vier miljoen tweets over vaccinaties te spotten.

Een onderzoek (pdf) geeft nu meer inzicht in hoe de drie beste teams te werk zijn gegaan. Het onderzoek is onder andere uitgevoerd door professor V.S. Subrahmanian van de University of Maryland, tevens één van de oprichters van het team van het bedrijf dat in de wedstrijd de beste score haalde.

SentiMetrix

Tussen iets de meer dan 7000 deelnemende accounts bevonden zich 39 bots. Teams die een account correct als bot aanwezen ontvingen één punt, maar een team dat een echt account aanwees als bot, moest 0,25 punt inleveren. Als een team alle bots x dagen voor het einde van de competitie gedetecteerd had, kreeg het team ook dat x aantal punten. Handig, want het doel is natuurlijk om bots zo vroeg mogelijk te spotten om hun invloed te beperken.

Het winnende team, analysebedrijf voor sociale media SentiMetrix, wist alle bots twaalf dagen voor het einde van de deadline te spotten en maakte daarbij maar één fout. Het bedrijf gebruikte daarvoor een algoritme dat ook al eens ingezet was tijdens de verkiezingen van 2014 in India, waarvan de uitkomst volgens sommigen is beïnvloed door bots. SentiMetrix keek daarbij eerst naar de hoeveelheid tweets over een bepaalde tijdsperiode en naar het taalgebruik in tweets. Daarbij werd een select aantal bots gevonden.

Ondanks dat dit aantal beperkt is, zijn deze bots de sleutel naar de rest. Bots zijn namelijk vaak aan elkaar gelinkt om hun bereik te vergroten. Door de bots te vergelijken met andere accounts kunnen meerdere bots worden opgespoord. Uiteindelijk wist SentiMetrix de mensen en bots van elkaar gescheiden op basis van gedrag en kenmerken. Het spotten van bots werd in eerste instantie gedaan door mensen, maar toen het bedrijf 29 bots gevonden had, wist een algoritme door middel van machine learning de resterende tien bots te vinden.

Scores

De nummer twee in de wedstrijd was de University of Southern California. Zij wisten zes dagen na SentiMetrix alle bots te detecteren, maar maakte daarbij geen enkele fout. In de onderstaande tabel is te zien hoe de zes deelnemende teams hebben gescoord.

darpatwitterbotchallengeresults

Hoewel de wedstrijd was gericht op het detecteren van volledig zelfstandige bots, kunnen de resultaten ook bijdragen aan het opsporen van bots die door mensen worden gebruikt, zoals bijvoorbeeld door Islamitische Staat wordt gedaan om mensen te werven.