Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
KTH, School of Computer Science and Communication (CSC).
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förbättring av ett informationssökningssystem genom att använda maskininlärning för att förbättra relevansåterkoppling från en användare (Swedish)
Abstract [en]

The aim of this thesis work is to improve the performance of an already existing information retrieval system that uses relevance feedback for performing query expansion. It is a constant goal to improve this system because the docu- ments that are retrieved are a base for various data analysis tasks. It is therefore important that the precision and re- call are high. A user can choose to give relevance feedback when executing a query, meaning the user can mark docu- ments in the search result as relevant or irrelevant and redo the search based on this feedback. The original query will then be expanded based on the user’s feedback. The ap- proach presented in this thesis uses the documents marked as relevant or irrelevant to train a classifier that can classify unknown documents from the search result as either rele- vant, irrelevant or unknown. The aim is to classify unknown documents and add them to the set of feedback documents that are used for the query expansion. The assumption that this thesis is based on is that the more feedback a user gives, the better the query expansion will perform. The system developed in this thesis is evaluated for the English language. The results in this thesis show that integrating the classifier in the existing system improved the perfor- mance in three out of four use cases. The existing system already has a good performance, but small improvements are important. It would therefore be beneficial to integrate it into the existing system. 

Abstract [sv]

I detta examensarbetet så är målet att förbättra ett exi- sterande informationssökningssystem som använder sig av relevansåterkoppling för att utföra sökfrågeexpansion. Det finns en konstant efterfrågan att förbättra prestandan av detta system då de dokument som returneras används för olika dataanalysuppgifter. Därför är det viktigt att både precision och täckning är så högt som möjligt. En använ- dare kan välja att ge relevansåterkoppling, vilket betyder att användaren markerar dokument som är relevanta och irrelevanta, vilket sedan används för att utföra sökfråge- expansion. Den initiala sökfrågan expanderas utifrån in- formation från relevansåterkopplingen. Tillvägagångssättet som presenteras i detta arbete använder de markerade do- kumenten för att träna en maskininlärningsmodell som kan klassificera oklassade document som relevanta, irrelevanat eller okända. Målet är att klassificera okända dokument och sedan lägga till dem till uppsättningen av relevansåterkopp- lingsdokument som användaren har markerat. Antagandet som denna metod baseras på är att ju mer relevansåter- koppling som ges, desto bättre sökfrågeexpansion kan sy- stemet utföra. Systemet som utvecklades i detta examens- arbete är byggt för och evaluerat mot data som äs skrivet på engelska. Resultaten i detta arbete visar att denna metod förbättrade resultaten i tre utav fyra testfall. Prestandan för det existerande systemet är redan på en hög nivå, men små förbättringar är viktiga. Det skulle vara en fördel att integrera detta i det existerande systemet. 

Place, publisher, year, edition, pages
2016.
Keyword [sv]
Informationssökning, Maskininlärning, Språkteknologi
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-185184OAI: oai:DiVA.org:kth-185184DiVA: diva2:919024
External cooperation
Meltwater
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2016-04-14 Created: 2016-04-12 Last updated: 2016-04-14Bibliographically approved

Open Access in DiVA

fulltext(1093 kB)160 downloads
File information
File name FULLTEXT01.pdfFile size 1093 kBChecksum SHA-512
24fe41cd8c27b42ae6bfd9ba6e2ef03c9230539dc80fd1848a85a0a40354becf962efa831cc5215b9d9a55695c152fc7b0776ad76c8dc12222bd5cad871e3ed6
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 160 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 944 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf