Tweetgenie voorspelt leeftijd en geslacht van een twitteraar

17-04-2017

Tweetgenie logoBen je altijd al benieuwd geweest naar de Twitteraar achter een bedrijf? Zou het een man of een vrouw zijn? Of wil je weten hoe oud een van je volgers op Twitter is? Dong Nguyen ontwikkelde op basis van computationeel onderzoek het programma TweetGenie. Met dit ingenieuze programma kun je de leeftijd en het geslacht van een Twitteraar (of van jezelf) voorspellen. Hoe zit dat precies?

Online data als bron voor onderzoek

Tegenwoordig delen we grote hoeveelheden informatie op internet. Denk maar aan blogs, posts op social media en zoektermen die we invoeren in Google. Voor taalonderzoek kunnen die online data een bron van informatie vormen. Daarom onderzocht Nguyen hoe onderzoekers talige en culturele variatie kunnen gebruiken in computationeel onderzoek. Als onderdeel van haar promotie-onderzoek ontwikelde ze het online programma Tweetgenie.

Hoe is Tweetgenie ontwikkeld?

Zoals bij veel taalkundig onderzoek, heeft Nguyen eerst de computer grote hoeveelheden data (tweets in dit geval) laten onderzoeken. Daarbij keek ze bijvoorbeeld naar lexicale keuzes van alle mannen van een bepaalde leeftijd. Door die gegevens in te lezen in de computer was het uiteindelijk mogelijk om voorspellingen te doen voor nieuwe tweets met het programma TweetGenie.

Hoe goed voorspelt TweetGenie?

Wij hebben de proef op de som genomen en het programma een voorspelling laten doen voor het Twitter-account van Tekstblad. TweetGenie voorspelt dat er achter Twitter een man van ongeveer 40 jaar zit. Niet helemaal correct! Nguyen geeft in haar thesis ook toe dat het lastig blijkt te zijn om de leeftijd te voorspellen van Twitter-gebruikers boven 30 jaar. Dit zou komen doordat volwassenen meer conservatief zijn in hun taalgebruik. Om het programma te kunnen verbeteren, krijgen gebruikers de vraag of zij het systeem willen laten weten in hoeverre de voorspelling van TweetGenie juist is.

Onderzoek naar Limburgs en Fries op Twitter

Nguyen deed ook onderzoek naar Twitteraars die Limburgs en Fries in hun tweets gebruiken. Ze was daarbij vooral benieuwd wanneer Twitteraars deze minderheidstalen zouden gebruiken en wanneer ze overschakelen op Nederlands. Het bleek dat deze twitteraars veelal in het Nederlands twitteren. Alleen als ze op andere twitteraars reageren die hun dialect spreken, switchen ze naar de minderheidstaal. Op zo’n moment blijven twitteraars vaak ook de minderheidstaal gebruiken en switchen ze niet meer terug.

Zelf een voorspelling doen?

Ben je benieuwd of TweetGenie op basis van jouw tweets een goede voorspelling doet? Of wil je de persoon achter een andere Twitter-account identificeren? Je kunt TweetGenie zelf uitproberen. Het programma werkt alleen voor Nederlandse Twitter-accounts.

Bron

De thesis van Dong Nguyen is getiteld Text as social and cultural data en is hier te downloaden.