Improving a Few-shot Named Entity Recognition Model Using Data Augmentation
2022 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hp
OppgaveAlternativ tittel
Förbättring av en existerande försöksmodell för namnidentifiering med få exempel genom databerikande åtgärder (svensk)
Abstract [en]
To label words of interest into a predefined set of named entities have traditionally required a large amount of labeled in-domain data. Recently, the availability of pre-trained transformer-based language models have enabled multiple natural language processing problems to utilize transfer learning techniques to construct machine learning models with less task-specific labeled data. In this thesis, the impact of data augmentation when training a pre-trained transformer-based model to adapt to a named entity recognition task with few labeled sentences is explored. The experimental results indicate that data augmentation increases performance of the trained models, however the data augmentation is shown to have less impact when more labeled data is available. In conclusion, data augmentation has been shown to improve performance of pre-trained named entity recognition models when few labeled sentences are available for training.
Abstract [sv]
Att kategorisera ord som tillhör någon av en mängd förangivna entiteter har traditionellt krävt stora mängder förkategoriserad områdesspecifik data. På senare år har det tillgängliggjorts förtränade språkmodeller som möjliggjort för språkprocesseringsproblem att lösas med en mindre mängd områdesspecifik kategoriserad data. I den här uppsatsen utforskas datautöknings påverkan på en maskininlärningsmodell för identifiering av namngivna entiteter. De experimentella resultaten indikerar att datautökning förbättrar modellerna, men att inverkan blir mindre när mer kategoriserad data är tillgänglig. Sammanfattningsvis så kan datautökning förbättra modeller för identifiering av namngivna entiteter när få förkategoriserade meningar finns tillgängliga för träning.
sted, utgiver, år, opplag, sider
2022. , s. 40
Serie
TRITA-EECS-EX ; 2022:211
Emneord [en]
Named Entity Recognition, Data Augmentation, Self-training, BERT, Few-shot Learning
Emneord [sv]
Identifiering av namngivna entiteter, Datautökning, Självträning, BERT, Fåförsöksinlärning
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-318546OAI: oai:DiVA.org:kth-318546DiVA, id: diva2:1697686
Eksternt samarbeid
Findwise
Fag / kurs
Computer Science
Utdanningsprogram
Master of Science - Computer Science
Veileder
Examiner
2022-09-222022-09-212022-09-22bibliografisk kontrollert