Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Subtopic extraction using graph-based methods
KTH, Skolan för datavetenskap och kommunikation (CSC).
2013 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Delämnesextraktion med grafbaserade metoder (svensk)
Abstract [en]

This report presents a subtopic extraction method using search engine technology, combined with graph centrality ranking of topic candidates.The implemented system uses Wikipedia as a knowledge base to extractand rank topic candidates. Multiple methods of topic extraction areevaluated. Primary methods based on search engine technology areexplored. The use of a state-of-the art annotation system of Wikipediaconcepts for topic extraction is also explored as comparison to previouswork. In this project, the system DBpedia spotlight is used for this comparison. It is also evaluated how graph centrality algorithms canbe used to improve the results from the system. This includes usingalgorithms like PageRank, Degree centrality, Closeness centrality and Betweenness centrality to rank the extracted topic candidates. A  is achieved when relevant topic candidates are given a higher rank than less relevant topic candidates. A topic candidate is considered relevant if it is relevant to the given input data text.

The system is implemented using the open source search engine ElasticSearch. The system is evaluated on abstracts from the SimpleEnglish Wikipedia. The results show that the system in 85% of the evaluated test cases finds the expected topic of the text in the top 10 ranked topic candidates. A survey was conducted where participants were asked to classify results from the system based on how well they matched a given text. The data from the survey shows that, in most cases, graph centrality ranking does improve the results noticeably,compared to only using the Term Frequency and Inverse Document Frequency (TF-IDF) ranking given by the search engine.

Abstract [sv]

Denna rapport presenterar ett system för delämnesextraktion som användersökmotorteknologi i kombination med grafcentralitet för att rangordnamöjliga ämneskandidater. Det implementerade systemet använder Wikipedia som en kunskapsbas för att extrahera och rangordna möjligaämnen. Flera metoder för ämnesextraktion undersöks. Primärt utforskas ämnesextraktion baserad på sökmotorteknologi. Som jämförelse med tidigare arbeten undersöks även hur ett ”state-of-the-art”-system för annotering av Wikipedia-koncept kan användas för ämnesextraktion. I detta projekt används systemet DBpedia spotlight för denna jämförelse. I rapporten utvärderas även hur grafcentralitet kan användas för att förbättra resultaten. Detta inkluderar användandet av algoritmer som PageRank, Degree-centralitet, Closeness-centralitet och Betweennesscentralitet för att rangordna de extraherade ämneskandidaterna. En bra rangordning motsvaras av att de relevanta ämneskandidaterna ges en högre rank än mindre relevanta resultat. En ämneskandidat är relevant om den kan anses vara ett representativt ämne för den givna indata-texten.

Systemet är implementerat med ”open source”-sökmotorn ElasticSearch. För att utvärdera systemet användes introduktionsstyckena från Simple English Wikipedia-artiklar. Resultatet visar att i 85% av de utvärderade testfallen finns det förväntade ämnet med bland de topp-10-rankade ämneskandidaterna. En undersökning genomfördes där deltagarna ombads klassifiera resultat från systemet baserat på hur väl de matchade en given text. Data från undersökingen visar att grafcentralitet, i de flesta fall, förbättrar resultaten märkbart, jämfört med att bara använda term-frekvens- och invers dokument-frekvens- (TF-IDF)rankingen given av sökmotorn.

sted, utgiver, år, opplag, sider
2013. , s. 68
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-355112OAI: oai:DiVA.org:kth-355112DiVA, id: diva2:1907505
Eksternt samarbeid
Findwise AB
Fag / kurs
Computer Science
Utdanningsprogram
Master of Science in Engineering - Computer Science and Technology
Presentation
, Stockholm
Veileder
Examiner
Merknad

QC 20241022

Tilgjengelig fra: 2024-10-22 Laget: 2024-10-22 Sist oppdatert: 2024-10-22bibliografisk kontrollert

Open Access i DiVA

fulltext(2252 kB)68 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 2252 kBChecksum SHA-512
e0e315c4e5b5a72cb564b36142216ae486c34c672d41b9c664913aa72a001ef0f021d631c51d7c6b949811021b87c1bf94162a4dcb5083d21f77739b0de1baef
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 68 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 191 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf