kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Mapping of open-answers using machine learning
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Kartläggning av öppna svar med hjälp av maskininlärning (Swedish)
Abstract [en]

This thesis investigates if a model can be created to map misspelled answers from open-ended questions to a finite set of brands. The data used for the paper comes from the company Nepa that uses open-questions to measure brand-awareness and consists of misspelled answers and brands to be mapped to. A data structure called match candidate was created and consists of a misspelled answer and brand that it poten-tially be mapped to. Features for the match candidates were engineered and based on the edited distances, posterior probability and common misspellings among other. Multiple machine learning models were tested for classifying the match candidates as positive if the mapping was correct and negative otherwise. The model was tested in two scenarios, one when the answers in the training and testing data came from the same questions and secondly when they came from different ones. Among the classifiers tested, the random forest model performed best in terms of PPV as well as sensitivity. The resulting mapping identified on average 92% of the misspelled answers and map then with 98% accuracy in the first scenario. While in the second scenario 70% of the answers were identified with 95% confidence in the mapping on average.

Abstract [sv]

Detta examensarbete undersöker huruvida en modell kan skapas för att kartlägga fel-stavade svar till öppna frågor till ett finit set av företagsnamn. Datan till denna uppsats kommer ifrån företaget Nepa som använder öppna frågor för att mäta märkesmedvetenhet. Denna data består av öppna svar samt företagsnamn som dessa kan matchas till. En datastruktur skapades som kallas för match candidate och består av ett felstavat svar samt ett företagsnamn som svaret kan matchas med. Attribut skapades till match candidate och bygger bland annat på sträng likhet, aposteriorisan-nolikhet samt vanliga fel stavningar med mera. Ett flertal maskininlärningsmodeller testades för att klassifiera match candidates som korrekt om och endast om svaret och företagsnamnet matchade och inkorrekt annars. Modellen testades i två olika scenarior. I det första kom datan som modellen tränade och testade på ifrån samma frågor. I det andra scenariot var det olika frågor som tränings och test data byggdes på. Av de maskininlärningsmodeller som testades så presterade radom forest modellen bäst i avseende på PPV och sensitivity. Den resulterande kartläggningen lyckades i genomsnitt identifiera 92% av alla felstavade svar och matchades i 98% till korrekt företagsnamn i det första scenariot. I det andra scenariot identifiera 70% av alla felstavade svar och matchades i 95% till korrekt företagsnamn i genomsnitt.

Place, publisher, year, edition, pages
2018.
Series
TRITA-SCI-GRU ; 2018:173
National Category
Mathematical Analysis
Identifiers
URN: urn:nbn:se:kth:diva-228616OAI: oai:DiVA.org:kth-228616DiVA, id: diva2:1212197
External cooperation
Nepa AB
Subject / course
Mathematical Statistics
Educational program
Master of Science - Industrial Engineering and Management
Supervisors
Examiners
Available from: 2018-06-01 Created: 2018-06-01 Last updated: 2022-06-26Bibliographically approved

Open Access in DiVA

fulltext(768 kB)259 downloads
File information
File name FULLTEXT01.pdfFile size 768 kBChecksum SHA-512
859eb758b92be5f13f39490fa4ebfa38c2004557da36c7a74b9f14ce417391832aebebc85dc6c302120b77f0dee9bba544b48128b75fdd4dbd7bda70481c3542
Type fulltextMimetype application/pdf

By organisation
Mathematical Statistics
Mathematical Analysis

Search outside of DiVA

GoogleGoogle Scholar
Total: 259 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 530 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf