Sms'jes doneren voor taalverzameling SoNaR

13-10-2011

SoNaR verzamelt sms'jes voor de wetenschap: Nederlandse en Vlaamse taalwetenschappers zijn op zoek naar mensen die hun sms'jes willen doneren voor een groot taalcorpus (een taalverzameling). Het doel is om 20.000 sms'jes te verzamelen vóór 1 december 2011. Deze databank wordt in de toekomst gebruikt voor onderzoek en ontwikkeling van taaltechnologische toepassingen. Computers leren bijvoorbeeld vertalen (Google Translate), zinnen maken (spraakcomputers) en tekst voorspellen (T9, Swype). Tekst uit SMS is goede leerstof voor computers.

Bij SoNaR gaat het om teksten van geschreven Nederlands en Vlaams. Met dit corpus kunnen onderzoekers gemakkelijk aan een grote hoeveelheid tekst komen voor hun onderzoek. Zo hoeft iedere onderzoeker niet opnieuw teksten te verzamelen, ze te bewerken en toestemming te vragen. SoNaR wordt een databank met minimaal 500 miljoen woorden Nederlands, die onderzoekers kunnen gebruiken.

SoNar wordt gerealiseerd in het kader van STEVIN, het Nederlands-Vlaamse onderzoeks- en stimuleringsprogramma voor taal- en spraaktechnologie. De Taalunie gaat het corpus beheren.

Inzenders maken kans op een iPad 2.