Enhancing Proprietary Asset Retrieval through Language Model Embeddings: A Similarity Search Approach
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förbättring av proprietär tillgångsåtervinning genom språkmodellsembeddings: En metod för likhetssökning (Swedish)
Abstract [en]
This thesis addresses the challenge of enhancing proprietary asset retrieval through the application of language model embeddings, a cutting-edge area that merges linguistic data processing with algorithmic search techniques. The primary problem tackled is the inefficiency and inaccuracy of traditional keyword-based search mechanisms in large, complex databases. The study proposes a similarity search approach utilizing language model embeddings to improve precision and speed in retrieving digital assets.A novel area of research is about the possibility of retrieving different types of assets from a single text input.Multiple embedding models are tested to assess the impact of different architectures and pre training setups.The main challenge was the development of a framework that integrates transformer language models with similarity search algorithms to identify and retrieve assets based on contextual relevance rather than mere keyword matching.Results showed that when performing similarity search with embeddings the underlying descriptions that have to be compared to the queries are crucial in improving retrieval accuracy. Further improvement such as applying Named Entity Recognition or fine tuning are also valuable in such aspect.This thesis demonstrates that language model embeddings offer a viable and superior alternative to traditional search technologies, paving the way for more intelligent and efficient retrieval systems in the field of digital asset management.
Abstract [sv]
Denna avhandling tar sig an utmaningen att förbättra hämtningen av proprietära tillgångar genom tillämpning av språkmodellsembeddings, ett banbrytande område som sammanför lingvistisk datahantering med algoritmiska söktekniker. Det primära problemet som tacklas är ineffektiviteten och oprecisionen hos traditionella sökmetoder baserade på nyckelord i stora, komplexa databaser. Studien föreslår en likhetssökningsmetod som använder språkmodellsembeddings för att förbättra precisionen och hastigheten vid hämtning av digitala tillgångar.Ett nytt forskningsområde handlar om möjligheten att hämta olika typer av tillgångar från en enda textinmatning.Flera inbäddningsmodeller testas för att bedöma effekten av olika arkitekturer och förberedningsinställningar.Den främsta utmaningen var utvecklingen av en ram som integrerar transformerande språkmodeller med likhetssökalgoritmer för att identifiera och hämta tillgångar baserat på kontextuell relevans snarare än enkel nyckelordsmatchning.Resultaten visade att vid likhetssökning med embeddings är de underliggande beskrivningarna som måste jämföras med frågorna avgörande för att förbättra hämtningens noggrannhet. Ytterligare förbättringar såsom tillämpning av Named Entity Recognition eller finjustering är också värdefulla i detta avseende.Denna avhandling visar att språkmodellsembeddings erbjuder ett livskraftigt och överlägset alternativ till traditionella söktekniker, vilket banar väg för mer intelligenta och effektiva hämtningssystem inom området digital tillgångshantering.
Place, publisher, year, edition, pages
2024. , p. 75
Series
TRITA-SCI-GRU ; 2024:361
Keywords [en]
Natural Language Processing, Embeddings, Semantic Search, Language Models
Keywords [sv]
Språkteknologi, Inbäddningar, Semantisk sökning, Språkmodeller
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-362670OAI: oai:DiVA.org:kth-362670DiVA, id: diva2:1953920
External cooperation
Frever
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
2025-04-282025-04-232025-04-28Bibliographically approved