Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Learning Methods for Improving News Retrieval Systems
KTH, School of Computer Science and Communication (CSC).
2016 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Textklassificeringsmetoder för förbättrad hämtning av nyhetsdata (Swedish)
Abstract [en]

Content providers require an efficient and accurate way of retrieving relevant content with minimal human aid. News retrieval, for instance, often requires human intervention to recognize which text documents are news articles and which are not. The differences between a factual news article and an opinionated blog piece may be subtle, yet are critical for providing informative and relevant content to users. This thesis explores the problem of format classification: the task of classifying text documents based on the format in which they are written, such as a news article, blog entry or forum text. More explicitly, the goal of the thesis is to examine how well state-of-the-art supervised text classifica- tion techniques work for format classification. We select a number of classifiers that have been shown to perform well in other text classification tasks and evaluate their perfor- mance in this unexplored task. Experimental evaluation, performed on a novel dataset created from multiple existing datasets, explores both binary and multi-class classification in a bag-of-words feature space. Based on our experimental results, we have found that state-of-the-art supervised text classification techniques perform acceptably well at format classification. Furthermore, we propose a Gradient Boost model as a candidate classifier for the task of format clas- sification, and provide a discussion of future work. 

Abstract [sv]

Företag som tillhandahåller innehållshanteringstjänster be- höver effektiva och precisa metoder för att med minsta möjliga mänskliga arbetskraft utvinna relevant innehåll ur stora mängder data. Ett exempel på detta är tjänster för insamlande av nyheter, där nyheter skall utvinnas från olika källor. Som en del av den processen krävs att de kan avgöra om en text är en nyhetsartikel eller någon annan form av text. Skillnaden mellan en nyhetsartikel och en text skriven för en blogg kan vara subtil, men är avgörande för dessa företag. Denna rapport utforskar formatklassifi- cering: uppgiften att klassificera texter baserat på vilket format de är skrivna för. Exempel på format är: nyhet- sartikel, bloggtext eller forumtext. Mer specifikt tar den sig an uppgiften att undersöka hur väl de metoder som idag används i den väl utforskade uppgiften att klassificera texter baserat på ämne fungerar applicerade på formatk- lassificering. Det utforskas med experimentell evaluering på ett nytt dataset som konstruerats genom att kombin- era ett flertal existerande dataset. Detta görs både som en binär- och multiklassificeringsuppgift i en bag-of-word vektorrymd. Ett antal ämnesklassificeringsmetoder väljs baserat på resultat från tidigare forskning, och hur dessa presterar på formatklassificering undersöks. Vi drar slut- satsen att våra resultat visar att de textklassificeringsme- toder vi testat fungerar acceptabelt väl på formatklassifi- cering. Vi föreslår vidare gradient-boost eller multinomial naive bayes för att lösa uppgiften, beroende på om fokus ligger på kvaliteten av klassificeringen eller prestanda. Slut- ligen diskuteras resultaten , de sätts i relation till de begrän- sningar som förelegat och förslag till framtida forskning ges. 

Place, publisher, year, edition, pages
2016.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-187492OAI: oai:DiVA.org:kth-187492DiVA: diva2:930599
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2016-05-25 Created: 2016-05-24 Last updated: 2016-05-25Bibliographically approved

Open Access in DiVA

fulltext(1533 kB)98 downloads
File information
File name FULLTEXT01.pdfFile size 1533 kBChecksum SHA-512
118403e65f68b9fbf2ec4bf6f6ce61d478bbfecb71c265fd1b482c7c74f05caadf36cec479a0c23ef859a4e64f75ee421489d4331776844bc0f7dce38c920604
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 98 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 147 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf