Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Improving a Few-shot Named Entity Recognition Model Using Data Augmentation
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2022 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Förbättring av en existerande försöksmodell för namnidentifiering med få exempel genom databerikande åtgärder (svensk)
Abstract [en]

To label words of interest into a predefined set of named entities have traditionally required a large amount of labeled in-domain data. Recently, the availability of pre-trained transformer-based language models have enabled multiple natural language processing problems to utilize transfer learning techniques to construct machine learning models with less task-specific labeled data. In this thesis, the impact of data augmentation when training a pre-trained transformer-based model to adapt to a named entity recognition task with few labeled sentences is explored. The experimental results indicate that data augmentation increases performance of the trained models, however the data augmentation is shown to have less impact when more labeled data is available. In conclusion, data augmentation has been shown to improve performance of pre-trained named entity recognition models when few labeled sentences are available for training.

Abstract [sv]

Att kategorisera ord som tillhör någon av en mängd förangivna entiteter har traditionellt krävt stora mängder förkategoriserad områdesspecifik data. På senare år har det tillgängliggjorts förtränade språkmodeller som möjliggjort för språkprocesseringsproblem att lösas med en mindre mängd områdesspecifik kategoriserad data. I den här uppsatsen utforskas datautöknings påverkan på en maskininlärningsmodell för identifiering av namngivna entiteter. De experimentella resultaten indikerar att datautökning förbättrar modellerna, men att inverkan blir mindre när mer kategoriserad data är tillgänglig. Sammanfattningsvis så kan datautökning förbättra modeller för identifiering av namngivna entiteter när få förkategoriserade meningar finns tillgängliga för träning.

sted, utgiver, år, opplag, sider
2022. , s. 40
Serie
TRITA-EECS-EX ; 2022:211
Emneord [en]
Named Entity Recognition, Data Augmentation, Self-training, BERT, Few-shot Learning
Emneord [sv]
Identifiering av namngivna entiteter, Datautökning, Självträning, BERT, Fåförsöksinlärning
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-318546OAI: oai:DiVA.org:kth-318546DiVA, id: diva2:1697686
Eksternt samarbeid
Findwise
Fag / kurs
Computer Science
Utdanningsprogram
Master of Science - Computer Science
Veileder
Examiner
Tilgjengelig fra: 2022-09-22 Laget: 2022-09-21 Sist oppdatert: 2022-09-22bibliografisk kontrollert

Open Access i DiVA

fulltext(512 kB)763 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 512 kBChecksum SHA-512
43ddae89a6dcd68fce834e7c6d9787b2e2994a01e556f7adb70ad56b70ecbd4eee7ff1738d8ea93e19b792943beadc916af35f402d42254b5c60ff381f35d85d
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 773 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 539 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf