kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Subtopic extraction using graph-based methods
KTH, School of Computer Science and Communication (CSC).
2013 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Delämnesextraktion med grafbaserade metoder (Swedish)
Abstract [en]

This report presents a subtopic extraction method using search engine technology, combined with graph centrality ranking of topic candidates.The implemented system uses Wikipedia as a knowledge base to extractand rank topic candidates. Multiple methods of topic extraction areevaluated. Primary methods based on search engine technology areexplored. The use of a state-of-the art annotation system of Wikipediaconcepts for topic extraction is also explored as comparison to previouswork. In this project, the system DBpedia spotlight is used for this comparison. It is also evaluated how graph centrality algorithms canbe used to improve the results from the system. This includes usingalgorithms like PageRank, Degree centrality, Closeness centrality and Betweenness centrality to rank the extracted topic candidates. A  is achieved when relevant topic candidates are given a higher rank than less relevant topic candidates. A topic candidate is considered relevant if it is relevant to the given input data text.

The system is implemented using the open source search engine ElasticSearch. The system is evaluated on abstracts from the SimpleEnglish Wikipedia. The results show that the system in 85% of the evaluated test cases finds the expected topic of the text in the top 10 ranked topic candidates. A survey was conducted where participants were asked to classify results from the system based on how well they matched a given text. The data from the survey shows that, in most cases, graph centrality ranking does improve the results noticeably,compared to only using the Term Frequency and Inverse Document Frequency (TF-IDF) ranking given by the search engine.

Abstract [sv]

Denna rapport presenterar ett system för delämnesextraktion som användersökmotorteknologi i kombination med grafcentralitet för att rangordnamöjliga ämneskandidater. Det implementerade systemet använder Wikipedia som en kunskapsbas för att extrahera och rangordna möjligaämnen. Flera metoder för ämnesextraktion undersöks. Primärt utforskas ämnesextraktion baserad på sökmotorteknologi. Som jämförelse med tidigare arbeten undersöks även hur ett ”state-of-the-art”-system för annotering av Wikipedia-koncept kan användas för ämnesextraktion. I detta projekt används systemet DBpedia spotlight för denna jämförelse. I rapporten utvärderas även hur grafcentralitet kan användas för att förbättra resultaten. Detta inkluderar användandet av algoritmer som PageRank, Degree-centralitet, Closeness-centralitet och Betweennesscentralitet för att rangordna de extraherade ämneskandidaterna. En bra rangordning motsvaras av att de relevanta ämneskandidaterna ges en högre rank än mindre relevanta resultat. En ämneskandidat är relevant om den kan anses vara ett representativt ämne för den givna indata-texten.

Systemet är implementerat med ”open source”-sökmotorn ElasticSearch. För att utvärdera systemet användes introduktionsstyckena från Simple English Wikipedia-artiklar. Resultatet visar att i 85% av de utvärderade testfallen finns det förväntade ämnet med bland de topp-10-rankade ämneskandidaterna. En undersökning genomfördes där deltagarna ombads klassifiera resultat från systemet baserat på hur väl de matchade en given text. Data från undersökingen visar att grafcentralitet, i de flesta fall, förbättrar resultaten märkbart, jämfört med att bara använda term-frekvens- och invers dokument-frekvens- (TF-IDF)rankingen given av sökmotorn.

Place, publisher, year, edition, pages
2013. , p. 68
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-355112OAI: oai:DiVA.org:kth-355112DiVA, id: diva2:1907505
External cooperation
Findwise AB
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Presentation
, Stockholm
Supervisors
Examiners
Note

QC 20241022

Available from: 2024-10-22 Created: 2024-10-22 Last updated: 2024-10-22Bibliographically approved

Open Access in DiVA

fulltext(2252 kB)68 downloads
File information
File name FULLTEXT01.pdfFile size 2252 kBChecksum SHA-512
e0e315c4e5b5a72cb564b36142216ae486c34c672d41b9c664913aa72a001ef0f021d631c51d7c6b949811021b87c1bf94162a4dcb5083d21f77739b0de1baef
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 68 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 184 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf