kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Trade-offs between Quality and Efficiency in Multilingual Dense Retrieval
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Avvägningar mellan kvalitet och effektivitet i f lerspråkig tät informationssökning (Swedish)
Abstract [en]

As the amount of content online grows, information retrieval becomes increasingly crucial. Traditional information retrieval does not take the text order into account and is also dependent on exact text matching between the query and the document. Therefore, a query consisting of synonyms to words in a document will not retrieve that document even if it could have been relevant to the user. An alternative approach is dense retrieval which solves these issues by representing the semantic meaning of the query or document using a vector representation. Semantically similar queries and documents are represented with vectors close to each other in a vector space. Vector similarity search can be used to find the most relevant documents for a query. Since the semantic meanings of the words are used, synonyms and paraphrases are handled implicitly. There are several ways to design these representation vectors, either by using one or several vectors to represent each query or document, by changing the dimensionality of the vectors, or by changing the span of values in the vectors. Each option brings its trade-offs in terms of quality of search results, query latency, and index memory footprint. This study experimented with each of the alternatives above. Since most previous research within the area has been done in a monolingual, mainly English context, this study used four different languages to investigate if the trade-offs differed. In this study, the quality, latency, and memory footprint moved in the same direction, i.e., when the quality increased, then the latency increased as well. This was the case for all the languages. For the version that used one vector each for the document and query, decreasing the dimensionality to 128 or 64 gave significant latency improvements but did not affect the quality. For the larger version, which used 32 vectors for the query and 64 for the document, converting the values of vectors to binary had no significant effect on quality but greatly reduced the storage size.

Abstract [sv]

Mängden innehåll på internet växer, och med det behovet av välfungerande informationssökningssystem. Traditionella sökmotorer tar inte hänsyn till ordföljden och är beroende av exakt textmatchning mellan sökfrågan och dokumentet. På grund av detta kommer en sökfråga som innehåller synonymer till ord i ett dokument inte att hämta det dokumentet, även om det hade kunnat vara relevant för användaren. En annan metod är tät informationssökning (en: Dense Retrieval) som löser de här problemen implicit genom att representera den semantiska betydelsen av sökfrågan eller dokumentet med en vektorrepresentation. Semantiskt lika sökfrågor och dokument representeras av närliggande vektorer i ett vektorrum. Likhetssökning med vektorerna kan användas för att hitta de mest relevanta dokumenten för en sökfråga. Eftersom ordens semantiska betydelse används, hanteras synonymer och parafraser implicit. Det finns flera sätt att utforma vektorerna, antingen genom att använda en eller flera vektorer för att representera varje sökfråga eller dokument, genom att ändra vektorernas dimensionalitet, eller genom att ändra spannet för vektorernas värden. Varje alternativ har sina egna för- och nackdelar med avseende på sökresultatens kvalitet, sökningarnas tidsåtgång, och hur mycket minne indexet upptar. I den här studien har vi undersökt alla ovanstående aspekter. Eftersom den mesta tidigare forskningen enbart har gjorts i en engelsk kontext, använder den här studien fyra olika språk för att se om föroch nackdelarna skiljde sig åt mellan de olika språken. I den här studien rörde sig kvaliteten, söktiden och minnesavtrycket i samma riktning, det vill säga när kvaliteten ökade, ökade också söktiden. Detta gällde för alla olika språk. För versionen som använde en vektor vardera för sökfrågan och dokumentet, gav en minskning av dimensionaliteten till 128 eller 64 betydande minskningar av söktiden men förändrade inte kvaliteten. För den större version som använde 32 vektorer för sökfrågan och 64 för dokumentet, gjorde inte en omvandling av vektorernas värden till binära någon skillnad för kvaliteten, men minskade lagringsutrymmet betydligt.

Place, publisher, year, edition, pages
2022. , p. 97
Series
TRITA-EECS-EX ; 2022:625
Keywords [en]
Dense retrieval, Binary Retrieval, Semantic search, ColBERT, Multilingual, MSMarco
Keywords [sv]
Tät informationssökning, Binär informationssökning, Semantisk sökning, ColBERT, Flerspråkig, MS Marco
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-321829OAI: oai:DiVA.org:kth-321829DiVA, id: diva2:1713362
External cooperation
Spotify AB
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
Available from: 2022-11-28 Created: 2022-11-24 Last updated: 2022-11-28Bibliographically approved

Open Access in DiVA

fulltext(11177 kB)529 downloads
File information
File name FULLTEXT01.pdfFile size 11177 kBChecksum SHA-512
4f0dca619b6bdd6f0186ef4448a1f2da2c0a88d2aee8171b5e5098a7cc17418fa1709c089e213eb6b18bae0e51aa356e25c72165cff9cc973cdc9bcf965a75b3
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 529 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 258 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf