kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Sentiment Analysisof Microblog Posts from a Crisis Eventusing Machine Learning
KTH, School of Computer Science and Communication (CSC).
2013 (English)Independent thesis Basic level (degree of Bachelor), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

With social media services becoming more and more popular, there now

exists a constant stream of opinions publicly available on the Internet.

These opinions can be analyzed to find the users’ sentiments towards

things. One example of interest is to see how people are feeling during

a crisis situation to get a better understanding about what kind of help

that would be the most useful at the moment.

The goal of this degree project has been to see if it is possible to

create an automatic classifier, based on machine learning techniques,

that can accurately determine whether a microblog post written during

a political event in Russia is for, against, or neutral towards the group

of people being at the center of the event.

Because of the shortness of microblog texts and the informal language

often used in them, the problem is expected to be more difficult

compared to sentiment analysis of normal length texts.

A number of different machine learning algorithms were studied

along with different ways to convert the microblog texts into a representation

that can be used by the classifier algorithms. The most promising

of these algorithms and representations were implemented and tested to

see if an accurate classifier could be obtained.

The results show that the algorithms are not good enough to create

a sufficiently accurate classifier with the training data used. One major

factor is believed to be the small training data set used. A better classifier

could potentially be achieved by training the classifier with more

microblog posts. It is of interest to examine other sentiment classifications

of microblog posts, since the one used in this project is believed

to be especially difficult. This study and previous research on similar

classifications suggest that this is a difficult problem that requires more

work if an accurate classifier is to be obtained.

Abstract [sv]

I och med att tjänster för sociala medier blir allt mer populära, existerar

det nu en konstant ström av åsikter fritt tillgängliga på internet.

Dessa åsikter kan analyseras för att finna användarnas känslor kring

olika ämnen. Ett exempel av intresse är att se hur folk känner under

en krissituation för att få en bättre uppfattning om vilken typ av hjälp

som skulle vara till mest nytta för tillfället.

Målet med detta examensarbete har varit att se om det är möjligt

att skapa en automatisk klassificerare, baserad på maskininlärningsmetoder,

som med precision kan avgöra huruvida ett mikroblogginlägg skrivet

under en politisk händelse i Ryssland är för, emot, eller neutral till

den grupp människor som händelsen kretsar kring.

Problemet väntas vara svårare än sentimentanalys av normallånga

texter, detta eftersom mikroblogginlägg är mycket kortare och ofta har

ett informellt språk.

Ett antal olika algoritmer för maskininlärning studerades tillsammans

med olika metoder för att representera mikroblogginläggen på ett

format som algoritmerna kan arbeta med. De mest lovande utav dessa

algoritmer och representationer implementerades och testades för att se

om en effektiv klassificerare kunde åstakommas.

Resultaten visar att algoritmerna inte är tillräckligt bra för att skapa

en tillräckligt precis klassificerare med den träningsdata som användes.

En stor faktor tros vara den lilla mängden träningsdata som användes.

En bättre klassificerare skulle potentiellt kunna uppnås om genom att

använda fler mikrobloginlägg som träningsdata. Det vore även intressant

att utforska andra sentimentklassificeringar utav mikroblogginlägg, då

den som användes i det här arbetet tros vara särskilt svår. Den här

studien och tidigare forskning på liknande klassificeringar talar för att

detta är ett svårt problem som kräver mer arbete för att en precis klassificerare

ska kunna erhållas.

Place, publisher, year, edition, pages
2013.
Series
Trita-CSC-E, ISSN 1653-5715 ; 13:126
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-138428OAI: oai:DiVA.org:kth-138428DiVA, id: diva2:681000
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2013-12-19 Created: 2013-12-19 Last updated: 2022-06-23Bibliographically approved

Open Access in DiVA

Sentiment Analysisof Microblog Posts from a Crisis Eventusing Machine Learning(2132 kB)369 downloads
File information
File name FULLTEXT01.pdfFile size 2132 kBChecksum SHA-512
21e0e420fa1336c4e097b67cd8b713866297042ac6dd344649624ae07b4409ea09ad8d630608e5aa74de7e52145bf8d1cb20f64a34ac80db416ca9e5150b5841
Type fulltextMimetype application/pdf

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2013/rapporter13/westling_anders_13042.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 370 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 437 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf