Subtopic extraction using graph-based methods
2013 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Delämnesextraktion med grafbaserade metoder (Swedish)
Abstract [en]
This report presents a subtopic extraction method using search engine technology, combined with graph centrality ranking of topic candidates.The implemented system uses Wikipedia as a knowledge base to extractand rank topic candidates. Multiple methods of topic extraction areevaluated. Primary methods based on search engine technology areexplored. The use of a state-of-the art annotation system of Wikipediaconcepts for topic extraction is also explored as comparison to previouswork. In this project, the system DBpedia spotlight is used for this comparison. It is also evaluated how graph centrality algorithms canbe used to improve the results from the system. This includes usingalgorithms like PageRank, Degree centrality, Closeness centrality and Betweenness centrality to rank the extracted topic candidates. A is achieved when relevant topic candidates are given a higher rank than less relevant topic candidates. A topic candidate is considered relevant if it is relevant to the given input data text.
The system is implemented using the open source search engine ElasticSearch. The system is evaluated on abstracts from the SimpleEnglish Wikipedia. The results show that the system in 85% of the evaluated test cases finds the expected topic of the text in the top 10 ranked topic candidates. A survey was conducted where participants were asked to classify results from the system based on how well they matched a given text. The data from the survey shows that, in most cases, graph centrality ranking does improve the results noticeably,compared to only using the Term Frequency and Inverse Document Frequency (TF-IDF) ranking given by the search engine.
Abstract [sv]
Denna rapport presenterar ett system för delämnesextraktion som användersökmotorteknologi i kombination med grafcentralitet för att rangordnamöjliga ämneskandidater. Det implementerade systemet använder Wikipedia som en kunskapsbas för att extrahera och rangordna möjligaämnen. Flera metoder för ämnesextraktion undersöks. Primärt utforskas ämnesextraktion baserad på sökmotorteknologi. Som jämförelse med tidigare arbeten undersöks även hur ett ”state-of-the-art”-system för annotering av Wikipedia-koncept kan användas för ämnesextraktion. I detta projekt används systemet DBpedia spotlight för denna jämförelse. I rapporten utvärderas även hur grafcentralitet kan användas för att förbättra resultaten. Detta inkluderar användandet av algoritmer som PageRank, Degree-centralitet, Closeness-centralitet och Betweennesscentralitet för att rangordna de extraherade ämneskandidaterna. En bra rangordning motsvaras av att de relevanta ämneskandidaterna ges en högre rank än mindre relevanta resultat. En ämneskandidat är relevant om den kan anses vara ett representativt ämne för den givna indata-texten.
Systemet är implementerat med ”open source”-sökmotorn ElasticSearch. För att utvärdera systemet användes introduktionsstyckena från Simple English Wikipedia-artiklar. Resultatet visar att i 85% av de utvärderade testfallen finns det förväntade ämnet med bland de topp-10-rankade ämneskandidaterna. En undersökning genomfördes där deltagarna ombads klassifiera resultat från systemet baserat på hur väl de matchade en given text. Data från undersökingen visar att grafcentralitet, i de flesta fall, förbättrar resultaten märkbart, jämfört med att bara använda term-frekvens- och invers dokument-frekvens- (TF-IDF)rankingen given av sökmotorn.
Place, publisher, year, edition, pages
2013. , p. 68
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-355112OAI: oai:DiVA.org:kth-355112DiVA, id: diva2:1907505
External cooperation
Findwise AB
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Presentation
, Stockholm
Supervisors
Examiners
Note
QC 20241022
2024-10-222024-10-222024-10-22Bibliographically approved