Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Self-Supervised Fine-Tuning of sentence embedding models using a Smooth Inverse Frequency model: Automatic creation of labels with Smooth Inverse Frequency model
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2023 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Självövervakad finjustering av modeller för inbäddning av meningar med hjälp av en Smooth Inverse Frequency-modell : Automatiskt skapande av etiketter med Smooth Inverse Frequency-modellen (svensk)
Abstract [en]

Sentence embedding models play a key role in the field of Natural Language Processing. They can be exploited for the resolution of several tasks like sentence paraphrasing, sentence similarity, and sentence clustering. Fine-tuning pre-trained models for sentence embedding extraction is a common practice that allows it to reach state-of-the-art performance on downstream tasks. Nevertheless, this practice usually requires labeled data sets. This thesis project aims to overcome this issue by introducing a novel technique for the automatic creation of a target set for fine-tuning sentence embedding models for a specific downstream task. The technique is evaluated on three distinct tasks: sentence paraphrasing, sentence similarity, and sentence clustering. The results demonstrate a significant improvement in sentence embedding models when employing the Smooth Inverse Frequency technique for automatic extraction and labeling of sentence pairs. In the paraphrasing task, the proposed technique yields a noteworthy enhancement of 2.3% in terms of F1-score compared to the baseline results. Moreover, it showcases a 0.2% improvement in F1-score when compared to the ideal scenario where real labels are utilized. For the sentence similarity task, the proposed method achieves a Pearson score of 0.71, surpassing the baseline model’s score of 0.476. However, it falls short of the ideal model trained with human annotations, which attains a Pearson score of 0.845. Regarding the clustering task, from a quantitative standpoint, the best model achieves a harmonic mean (calculated using DBCV and cophenetic score) of 0.693, outperforming the baseline score of 0.671. Nevertheless, the qualitative assessment did not demonstrate a substantial improvement for the clustering task, highlighting the need for exploring alternative techniques to enhance performance in this area.

Abstract [sv]

Modeller för inbäddning av meningar spelar en nyckelroll inom området Natural Language språkbehandling. De kan utnyttjas för att lösa flera uppgifter som meningsparafrasering, meningslikhet och meningsklustring. Fin- och finjustering av förtränade modeller för extraktion av meningsinbäddning är en vanlig praxis som gör det möjligt att nå toppmoderna prestanda på nedströmsuppgifter. Denna metod kräver dock vanligtvis märkta datauppsättningar. Detta avhandlingsprojekt syftar till att lösa detta problem genom att introducera en ny teknik för det automatiska skapandet av en måluppsättning för finjustering av meningsinbäddningsmodeller för en specifik nedströmsuppgift. Tekniken utvärderas på tre olika uppgifter uppgifter: meningsparafrasering, meningslikhet och meningsklustring. Resultaten visar en betydande förbättring av modellerna för inbäddning av meningar när Smooth Inverse Frequency-tekniken används för automatisk extraktion och märkning av meningspar. I parafraseringsuppgiften ger den föreslagna tekniken en anmärkningsvärd förbättring på 2,3% när det gäller F1-score jämfört med baslinjens resultat. Dessutom visar den en förbättring på 0,2% i F1-score jämfört med det ideala scenariot där riktiga etiketter används. För meningslikhetsuppgiften uppnår den föreslagna metoden en Pearson-poäng på 0,71, vilket överträffar baslinjemodellens poäng på 0,476. Det faller dock under den ideala modellen som tränats med mänskliga anteckningar, vilket uppnår en Pearson-poäng på 0.845. När det gäller klustringsuppgiften uppnår den bästa modellen ur kvantitativ synvinkel ett harmoniskt medelvärde (beräknat med DBCV och cophenetic score) på 0,693, vilket överträffar baslinjens poäng på 0,671. Den kvalitativa bedömningen visade dock inte på någon väsentlig förbättring för klustringsuppgiften, vilket understryker behovet av att utforska alternativa tekniker för att förbättra prestandan inom detta område. Translated with www.DeepL.com/Translator (free version)

sted, utgiver, år, opplag, sider
2023. , s. 69
Serie
TRITA-EECS-EX ; 2023:748
Emneord [en]
Natural Language Processing, sentence embeddings, Transformer-based architectures, sentence paraphrasing, sentence similarity, sentence clustering
Emneord [sv]
Naturlig språkbehandling, inbäddning av meningar, transformatorbaserade arkitekturer, parafrasering av meningar, meningslikhet, klustring av meningar Canvas Lärplattform, Dockerbehållare, Prestandajustering
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-339783OAI: oai:DiVA.org:kth-339783DiVA, id: diva2:1813068
Eksternt samarbeid
Gavagai; Polytechnic of Turin
Veileder
Examiner
Tilgjengelig fra: 2023-12-07 Laget: 2023-11-18 Sist oppdatert: 2023-12-07bibliografisk kontrollert

Open Access i DiVA

fulltext(1370 kB)885 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 1370 kBChecksum SHA-512
3ecc7dc8f41e9eb5dca329f0231dded922ed9b087c31ac1698c9ddff83c251d1d59eb39ff9fb0368f748776dcb7bb128fdf4de934fe9e5c5ba391a915581d7ba
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 886 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 322 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf