Over Settler

Voor mijn minor Big data heb ik een project gedaan: Data science Praktijk. Tijdens dit project heb ik samengewerkt met Arvind Khoenkhoen (Business IT & Management) en John Verkerk (Informatica). Voor dit project hebben we een concept bedacht, data verwerkt en een webapplicatie ontwikkeld.

De applicatie, genaamd Settler, is een hulpmiddel om de beste Nederlandse gemeenten te vinden om te "settelen". De gebruiker kan filteren op de factoren: interessegebieden en opleidingsniveaus. De beste locaties worden getoond op een Google map.

We hebben een alomvattende structuur gekozen voor onze interessegebieden. Voor elk interessegebied hebben we Wikipedia dumps en 113 PDF/Word-documenten verzameld. We hebben een stopwoorden lijst samengesteld, waardoor we een relevante woordenschat konden opbouwen per interessegebied. Voor de Nederlandse gemeenten is gebruik gemaakt van een XLS lijst van CBS: "Gemeentelijk indeling op 1 januari 2015". Voor elke gemeente hebben we de geolocaties verzameld. Tevens hebben we van elke gemeente de "Gediplomeerden" per opleidingsniveaus geclusterd. We hebben diverse interaties gedaan om de gewenste resultaten en wegingen te verkrijgen. John heeft van elke gemeente Twitter berichten opgehaald, waarvan we vervolgens het interessegebied konden classificeren. Hiervoor hebben we het Naive Bayes algoritme gebruikt.

De applicatie die vervolgens de resultaten toont is een one-pager. Nadat de gebruiker filtert, worden de gevonden gemeenten getoond. Bij elke gemeente wordt een marker neergezet die omringd is met een groene cirkel. Hoe groter de groene cirkel, hoe hoger de ranking van de Nederlandse gemeente.