Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Lexikal kohesion inom automatisk textsammanfattning för svenska.
KTH, School of Computer Science and Communication (CSC).
2011 (Swedish)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The aim of this thesis was to develop a tool for automatic text summarization for the Swedish language. The main question has been if it is possible to avoid the problem of topical under-representation in Swedish news texts The approach used in this report is text extraction where the most relevant sentences are identified and pasted together to form an extract. To assist sentence extraction the technique of discourse segmentation is applied to divide the text into its sub-topics. Michael Hoey’s view on text as a network consisting of sentences forms the basis of this work. The algorithm implemented is Marti A. Hearst’s Texttiling. Texttiling was extended by the implementation of lexical semantic analysis; a mathematical/statistical theory and method for determining the similarity of meaning of words or sentences by analysis of large text collection. An evaluation resulted in the conclusion that the discourse segmentation used in this thesis did not improve sentence extraction for short to average length news articles

Abstract [sv]

Målet för detta examensarbete har varit att utveckla ett verktyg för automatisk sammanfattning av text skriven på svenska. Frågeställningen har varit om det är möjligt att undvika problemet med underrepresentation av delämnen i svenska nyhetsartiklar. Angreppssättet som valts är textextraktion där hela meningar sammanfogas till en sammanfattning av originaltexten. För att särskilja textens delämnen tillämpas diskurssegmentering; en teknik som bygger på Michael Hoeys nätverksmodell. Algoritmen som implementerades för ändamålet är Marti A. Hearsts Texttiling. En utökning av Texttiling sker genom att implementera latent semantisk analys (LSA) som är en matematisk/statistisk metod inom språkteknologi. LSA utvinner, genom analys av en omfattande textsamling, dolda semantiska relationer mellan ord eller meningar.

En utvärdering genomfördes för att utröna om diskurssegmentering ökade prestationsgraden vid automatisk textsammanfattning. Utvärderingen visar att diskurssegmentering tillämpad i det här examensarbetet inte är att föredra vid automatisk textsammanfattning av korta till medellånga nyhetsartiklar på svenska.

Place, publisher, year, edition, pages
2011.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2011:069
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130730OAI: oai:DiVA.org:kth-130730DiVA: diva2:654177
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2011/rapporter11/landes_fredrik_11069.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 97 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf