kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Enhancing Proprietary Asset Retrieval through Language Model Embeddings: A Similarity Search Approach
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematics (Div.).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förbättring av proprietär tillgångsåtervinning genom språkmodellsembeddings: En metod för likhetssökning (Swedish)
Abstract [en]

This thesis addresses the challenge of enhancing proprietary asset retrieval through the application of language model embeddings, a cutting-edge area that merges linguistic data processing with algorithmic search techniques. The primary problem tackled is the inefficiency and inaccuracy of traditional keyword-based search mechanisms in large, complex databases. The study proposes a similarity search approach utilizing language model embeddings to improve precision and speed in retrieving digital assets.A novel area of research is about the possibility of retrieving different types of assets from a single text input.Multiple embedding models are tested to assess the impact of different architectures and pre training setups.The main challenge was the development of a framework that integrates transformer language models with similarity search algorithms to identify and retrieve assets based on contextual relevance rather than mere keyword matching.Results showed that when performing similarity search with embeddings the underlying descriptions that have to be compared to the queries are crucial in improving retrieval accuracy. Further improvement such as applying Named Entity Recognition or fine tuning are also valuable in such aspect.This thesis demonstrates that language model embeddings offer a viable and superior alternative to traditional search technologies, paving the way for more intelligent and efficient retrieval systems in the field of digital asset management.

Abstract [sv]

Denna avhandling tar sig an utmaningen att förbättra hämtningen av proprietära tillgångar genom tillämpning av språkmodellsembeddings, ett banbrytande område som sammanför lingvistisk datahantering med algoritmiska söktekniker. Det primära problemet som tacklas är ineffektiviteten och oprecisionen hos traditionella sökmetoder baserade på nyckelord i stora, komplexa databaser. Studien föreslår en likhetssökningsmetod som använder språkmodellsembeddings för att förbättra precisionen och hastigheten vid hämtning av digitala tillgångar.Ett nytt forskningsområde handlar om möjligheten att hämta olika typer av tillgångar från en enda textinmatning.Flera inbäddningsmodeller testas för att bedöma effekten av olika arkitekturer och förberedningsinställningar.Den främsta utmaningen var utvecklingen av en ram som integrerar transformerande språkmodeller med likhetssökalgoritmer för att identifiera och hämta tillgångar baserat på kontextuell relevans snarare än enkel nyckelordsmatchning.Resultaten visade att vid likhetssökning med embeddings är de underliggande beskrivningarna som måste jämföras med frågorna avgörande för att förbättra hämtningens noggrannhet. Ytterligare förbättringar såsom tillämpning av Named Entity Recognition eller finjustering är också värdefulla i detta avseende.Denna avhandling visar att språkmodellsembeddings erbjuder ett livskraftigt och överlägset alternativ till traditionella söktekniker, vilket banar väg för mer intelligenta och effektiva hämtningssystem inom området digital tillgångshantering.

Place, publisher, year, edition, pages
2024. , p. 75
Series
TRITA-SCI-GRU ; 2024:361
Keywords [en]
Natural Language Processing, Embeddings, Semantic Search, Language Models
Keywords [sv]
Språkteknologi, Inbäddningar, Semantisk sökning, Språkmodeller
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-362670OAI: oai:DiVA.org:kth-362670DiVA, id: diva2:1953920
External cooperation
Frever
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2025-04-28 Created: 2025-04-23 Last updated: 2025-04-28Bibliographically approved

Open Access in DiVA

fulltext(2479 kB)30 downloads
File information
File name FULLTEXT01.pdfFile size 2479 kBChecksum SHA-512
c211dfb49bbd9e07c1df89efec4c8381345d03c9dd3ee96c7aeb5bf4748a240d2f4e4428bf49cc531c89528c8c2e09ba7db6a1ee42adf3192efa3bf4c50d5e16
Type fulltextMimetype application/pdf

By organisation
Mathematics (Div.)
Other Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 30 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 244 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf