Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Smirking or Smiling Smileys?: Evaluating the Use of Emoticons to Determine Sentimental Mood
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2015 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

Machine Learning classifiers are commonly used for the purpose of Sentiment Analysis. These classifiers use annotated training data from which they learn to predict the sentiment of texts, for example whether a text conveys a positive or a negative sentiment. In this thesis we compare the performance of two sources of training data for the purposes of sentiment classification on Twitter: (i) tweets annotated by hand of a fixed quantity (about 2000 tweets) and (ii) tweets annotated automatically by an emoticon heuristic of increasing quantity (from 2000 tweets to 1.6 million tweets). The performance of these training sets are evaluated by training commonly used classifiers (Naive Bayes, Support Vector Machines and Maximum Entropy) and comparing the classification accuracy of the different data sets on a test set annotated by hand. These tests are made with varying use of n-gram models (unigrams, bigrams, and a combination of both) and the varying use of a stop word filter. We show that while the hand-annotated training set performs well in equally sized training sets, the automatically annotated training set exceeds the accuracy of the hand-annotated training set in all test setups but one when 1.6 million automatically annotated tweets are used for training.

Abstract [sv]

Maskininlärningsalgoritmer används ofta för att utföra analys av känslomassig inställning; sentimentsanalys. Dessa algoritmer använder annoterad träningsdata för att lära sig att klassificera texter efter exempelvis huruvida de speglar ett positivt eller negativt sentiment. I den här uppsatsen företas sentimentsanalys av data från Twitter varvid effektiviteten utvärderas med avseende på två typer av träningsdata: (i) en fix mängd tweets som annoterats för hand (cirka 2000 tweets) och (ii) olika mängder tweets som genomgått automatisk annotering av en heuristik baserad på emoticons (från 2000 till 1.6 miljoner tweets). Effektiviteten som träningsdata hos dessa dataset har utvärderats genom att träna vanliga maskininlärningsalgoritmer (Naive Bayes, Support Vector Machines och Maximum Entropy) vartefter jämförelser gjorts av hur väl de lyckats klassificera ett set med testdata som annoterats för hand. Testerna har gjorts med olika typer av n-gram (unigram, bigram samt kombinationen av dessa) samt valbar inkludering av ett filter med stoppord. I studien framkommer att träningsdata annoterad för hand presterar bra i jämförelse med annoteringar som gjorts heuristiskt förutsatt att dataseten är av samma storlek. Då omfattningen av den heuristiskt annoterade träningsdatan växer förbättras dock förmågan till korrekta klassificeringar, och när storleken uppgår till 1.6 miljoner tweets ger användning av handannoterad träningsdata bättre resultat i endast ett fall av de testupptällningar som använts.

Place, publisher, year, edition, pages
2015.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-166432OAI: oai:DiVA.org:kth-166432DiVA: diva2:811037
Supervisors
Examiners
Available from: 2015-05-28 Created: 2015-05-09 Last updated: 2015-05-28Bibliographically approved

Open Access in DiVA

fulltext(880 kB)166 downloads
File information
File name FULLTEXT01.pdfFile size 880 kBChecksum SHA-512
628f4632b6ee0b8a622a59753a152520319b825d7b08dc92be4cda5bd39766a8d305179034191811207f18708d03b394391d36b81b42ac99390894d1ddca7ad7
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 166 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 276 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf