Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multi-Document Summaries of Swedish Documents as Search Result.
KTH, School of Computer Science and Communication (CSC).
2012 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

This thesis attempts to evaluate if it is viable for an information retrieval application to cluster the documents of a search result and generate multi-document summaries in query time, for Swedish documents. It evaluates the performance and quality of the document clustering algorithm k-means, and two multi-document summarization algorithms; one based on PageRank and the other based on the Cover Coefficient concept.

The result shows that neither of the multi-document summarization algorithms is fast enough to run in query time, given a time limit of two seconds. But that they are both able to produce Swedish summaries of reasonably high quality. It further shows that k-means clusters documents quickly enough to be used in query time, but that the quality of the clusters are somewhat lacking and might not be good enough for practical use.

Abstract [sv]

Denna rapport gör ett försök att utvärdera om det är möjligt för en sökmotor att klustra och flertextsammanfatta svenska sökresultat fort nog för att det ska kunna göras då sökfrågan ställs (query time). Den utvärderar hastigheten och kvalitén hos klustringsalgoritmen \kmeans samt två flertextsammanfattaningsalgoritmer, den ena är baserad på PageRank och den andra är baserad på Cover Coefficient-konceptet.

Resultatet visar att ingen av flertextsammanfattningsalgoritmerna är tillräckligt snabb för att köras i query time givet en maximal körningstid på två sekunder. Däremot producerar båda sammanfattningar av god kvalité. Det visas även att k-means klustrar dokumenten tillräckligt snabbt för att kunna köras i query time, men att kvalitén hos klustren är något bristfälliga, vilket kan innebära att de inte är tillräckligt bra för att kunna användas praktiskt.

Place, publisher, year, edition, pages
2012.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2012:087
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130936OAI: oai:DiVA.org:kth-130936DiVA: diva2:654382
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2012/rapporter12/erneholm_carl-oscar_12087.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 71 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf