Sentiment Analysisof Microblog Posts from a Crisis Eventusing Machine Learning
2013 (English)Independent thesis Basic level (degree of Bachelor), 20 credits / 30 HE credits
Student thesis
Abstract [en]
With social media services becoming more and more popular, there now
exists a constant stream of opinions publicly available on the Internet.
These opinions can be analyzed to find the users’ sentiments towards
things. One example of interest is to see how people are feeling during
a crisis situation to get a better understanding about what kind of help
that would be the most useful at the moment.
The goal of this degree project has been to see if it is possible to
create an automatic classifier, based on machine learning techniques,
that can accurately determine whether a microblog post written during
a political event in Russia is for, against, or neutral towards the group
of people being at the center of the event.
Because of the shortness of microblog texts and the informal language
often used in them, the problem is expected to be more difficult
compared to sentiment analysis of normal length texts.
A number of different machine learning algorithms were studied
along with different ways to convert the microblog texts into a representation
that can be used by the classifier algorithms. The most promising
of these algorithms and representations were implemented and tested to
see if an accurate classifier could be obtained.
The results show that the algorithms are not good enough to create
a sufficiently accurate classifier with the training data used. One major
factor is believed to be the small training data set used. A better classifier
could potentially be achieved by training the classifier with more
microblog posts. It is of interest to examine other sentiment classifications
of microblog posts, since the one used in this project is believed
to be especially difficult. This study and previous research on similar
classifications suggest that this is a difficult problem that requires more
work if an accurate classifier is to be obtained.
Abstract [sv]
I och med att tjänster för sociala medier blir allt mer populära, existerar
det nu en konstant ström av åsikter fritt tillgängliga på internet.
Dessa åsikter kan analyseras för att finna användarnas känslor kring
olika ämnen. Ett exempel av intresse är att se hur folk känner under
en krissituation för att få en bättre uppfattning om vilken typ av hjälp
som skulle vara till mest nytta för tillfället.
Målet med detta examensarbete har varit att se om det är möjligt
att skapa en automatisk klassificerare, baserad på maskininlärningsmetoder,
som med precision kan avgöra huruvida ett mikroblogginlägg skrivet
under en politisk händelse i Ryssland är för, emot, eller neutral till
den grupp människor som händelsen kretsar kring.
Problemet väntas vara svårare än sentimentanalys av normallånga
texter, detta eftersom mikroblogginlägg är mycket kortare och ofta har
ett informellt språk.
Ett antal olika algoritmer för maskininlärning studerades tillsammans
med olika metoder för att representera mikroblogginläggen på ett
format som algoritmerna kan arbeta med. De mest lovande utav dessa
algoritmer och representationer implementerades och testades för att se
om en effektiv klassificerare kunde åstakommas.
Resultaten visar att algoritmerna inte är tillräckligt bra för att skapa
en tillräckligt precis klassificerare med den träningsdata som användes.
En stor faktor tros vara den lilla mängden träningsdata som användes.
En bättre klassificerare skulle potentiellt kunna uppnås om genom att
använda fler mikrobloginlägg som träningsdata. Det vore även intressant
att utforska andra sentimentklassificeringar utav mikroblogginlägg, då
den som användes i det här arbetet tros vara särskilt svår. Den här
studien och tidigare forskning på liknande klassificeringar talar för att
detta är ett svårt problem som kräver mer arbete för att en precis klassificerare
ska kunna erhållas.
Place, publisher, year, edition, pages
2013.
Series
Trita-CSC-E, ISSN 1653-5715 ; 13:126
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-138428OAI: oai:DiVA.org:kth-138428DiVA, id: diva2:681000
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2013-12-192013-12-192022-06-23Bibliographically approved