Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Text mining using a combination of methods
KTH, School of Computer Science and Communication (CSC).
2017 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Kombinering av metoder för informationsextrahering ur text. (Swedish)
Abstract [en]

 This study explores the possibility of combining predictions from a number of models trained in reading and extracting information from texts on web pages. The technique used is called POS (Position of speech) and implies that all units of a text (parts of a word, word, sentence, or so on) gets assigned a token. Based on the tokens, information about the unit contents is drawn. If done correctly, interesting parts of the text gets assigned their respective token that marks their content. A text about a certain cell phone would thus be able to provide details of its screen size, manufacturer, RAM and so on, these values should be marked with their respective token so that they can be complied to, say, a table. The methods used in this study are the Hidden Markov model, Support Vector Machines, Conditional Random Fields and Markov N-Gram (a variant of Hidden Markov model). The research question that this study aims to answer is whether is it possible to combine the answers from these models to a single answer that, to a greater extent, correspond to the actual information in the text than each of these methods by themselves. The experiment that is conducted in the study demonstrates that such combination appears possible. A number of combination methods are tested, namely Hard Voting, Soft Voting, Decision Tree, Support Vector Machines and AdaBoost. The method of combination that performed best was the Decision Tree.

Abstract [sv]

I denna studie utforskas möjligheten att sammanföra prediktioner från ett antal modeller tränade i att läsa och extrahera information från texter på websidor. Den teknik som används kallas POS (Position-of-speach) och innebär att alla enheter (delar av ett ord, ord, mening eller sp vidare) tilldelas en markör, en så kallad ”tag”. Utifrån dessa markörer går det sedan att tyda vilken information enheten innehåller. Om allt går rätt till tilldelas de intressanta styckarna i texten respektive markör som markerar dess innehåll. En text om en viss mobiltelefon skulle på så viss kunna innehålla information on dess skärmstorlek, tillverkare, RAM och så vidare, dessa värden skulle då markeras med respektive tag så att de kan sammanfattas till, exempelvis, en tabell.  De metoder som i denna studie används till detta är Hidden Markov Model, Support Vector Machines, Conditional Random Feild och Markov N-Gram (en variant av Hidden Markov Model). Forskningsfrågan som avses besvaras är huruvida det är möjligt att kombinera svaren från dessa modeller till ett svar som i högre grad stämmer överens med verkligheten än för var och en av de nämnda metoderna för sig. Experimenten som genoförts i denna studie påvisar att en sådan kombination tyck möjlig. Flera olika kombinationsmetoder undersöks, nämligen Rättvis Röstning, Mjuk Röstning, Decision Trees, Support Vector Machines och AdaBoost. Bäst bland kombinationsmetoderna presterade Decision Tree.

Place, publisher, year, edition, pages
2017.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-240066OAI: oai:DiVA.org:kth-240066DiVA, id: diva2:1269325
Supervisors
Examiners
Available from: 2018-12-11 Created: 2018-12-10 Last updated: 2018-12-11Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Computer Science and Communication (CSC)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 13 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf