kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Subtopic extraction using graph-based methods
KTH, Skolan för datavetenskap och kommunikation (CSC).
2013 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Delämnesextraktion med grafbaserade metoder (Svenska)
Abstract [en]

This report presents a subtopic extraction method using search engine technology, combined with graph centrality ranking of topic candidates.The implemented system uses Wikipedia as a knowledge base to extractand rank topic candidates. Multiple methods of topic extraction areevaluated. Primary methods based on search engine technology areexplored. The use of a state-of-the art annotation system of Wikipediaconcepts for topic extraction is also explored as comparison to previouswork. In this project, the system DBpedia spotlight is used for this comparison. It is also evaluated how graph centrality algorithms canbe used to improve the results from the system. This includes usingalgorithms like PageRank, Degree centrality, Closeness centrality and Betweenness centrality to rank the extracted topic candidates. A  is achieved when relevant topic candidates are given a higher rank than less relevant topic candidates. A topic candidate is considered relevant if it is relevant to the given input data text.

The system is implemented using the open source search engine ElasticSearch. The system is evaluated on abstracts from the SimpleEnglish Wikipedia. The results show that the system in 85% of the evaluated test cases finds the expected topic of the text in the top 10 ranked topic candidates. A survey was conducted where participants were asked to classify results from the system based on how well they matched a given text. The data from the survey shows that, in most cases, graph centrality ranking does improve the results noticeably,compared to only using the Term Frequency and Inverse Document Frequency (TF-IDF) ranking given by the search engine.

Abstract [sv]

Denna rapport presenterar ett system för delämnesextraktion som användersökmotorteknologi i kombination med grafcentralitet för att rangordnamöjliga ämneskandidater. Det implementerade systemet använder Wikipedia som en kunskapsbas för att extrahera och rangordna möjligaämnen. Flera metoder för ämnesextraktion undersöks. Primärt utforskas ämnesextraktion baserad på sökmotorteknologi. Som jämförelse med tidigare arbeten undersöks även hur ett ”state-of-the-art”-system för annotering av Wikipedia-koncept kan användas för ämnesextraktion. I detta projekt används systemet DBpedia spotlight för denna jämförelse. I rapporten utvärderas även hur grafcentralitet kan användas för att förbättra resultaten. Detta inkluderar användandet av algoritmer som PageRank, Degree-centralitet, Closeness-centralitet och Betweennesscentralitet för att rangordna de extraherade ämneskandidaterna. En bra rangordning motsvaras av att de relevanta ämneskandidaterna ges en högre rank än mindre relevanta resultat. En ämneskandidat är relevant om den kan anses vara ett representativt ämne för den givna indata-texten.

Systemet är implementerat med ”open source”-sökmotorn ElasticSearch. För att utvärdera systemet användes introduktionsstyckena från Simple English Wikipedia-artiklar. Resultatet visar att i 85% av de utvärderade testfallen finns det förväntade ämnet med bland de topp-10-rankade ämneskandidaterna. En undersökning genomfördes där deltagarna ombads klassifiera resultat från systemet baserat på hur väl de matchade en given text. Data från undersökingen visar att grafcentralitet, i de flesta fall, förbättrar resultaten märkbart, jämfört med att bara använda term-frekvens- och invers dokument-frekvens- (TF-IDF)rankingen given av sökmotorn.

Ort, förlag, år, upplaga, sidor
2013. , s. 68
Nationell ämneskategori
Elektroteknik och elektronik
Identifikatorer
URN: urn:nbn:se:kth:diva-355112OAI: oai:DiVA.org:kth-355112DiVA, id: diva2:1907505
Externt samarbete
Findwise AB
Ämne / kurs
Datalogi
Utbildningsprogram
Civilingenjörsexamen - Datateknik
Presentation
, Stockholm
Handledare
Examinatorer
Anmärkning

QC 20241022

Tillgänglig från: 2024-10-22 Skapad: 2024-10-22 Senast uppdaterad: 2024-10-22Bibliografiskt granskad

Open Access i DiVA

fulltext(2252 kB)68 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 2252 kBChecksumma SHA-512
e0e315c4e5b5a72cb564b36142216ae486c34c672d41b9c664913aa72a001ef0f021d631c51d7c6b949811021b87c1bf94162a4dcb5083d21f77739b0de1baef
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för datavetenskap och kommunikation (CSC)
Elektroteknik och elektronik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 68 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 191 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf