Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Nested Noun Phrase Detection in English Text with BERT
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2023 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgave
Abstract [en]

In this project, we address the task of nested noun phrase identification in English sentences, where a phrase is defined as a group of words functioning as one unit in a sentence. Prior research has extensively explored the identification of various phrases for language understanding and text generation tasks. Our aim is to tackle the novel challenge of identifying nested noun phrases within sentences. To accomplish this, we first review existing work on related topics such as partial parsing and noun phrase identification. Subsequently, we propose a novel approach based on transformer models to recursively identify nested noun phrases in sentences. We fine-tune a pre-trained uncased BERT model to detect phrase structures in a sentence and determine whether they represent noun phrases. Our recursive approach involves merging relevant segments of a sentence and assigning labels to the noun phrases at each step, facilitating the identification of nested structures. The evaluation of our model demonstrates promising results, achieving a high accuracy of up to 93.6% when considering all noun phrases in isolation and 90.9% when accounting for the predicted phrase structure of the sentence. Additionally, our model exhibits a recall rate of 83.5% and 81.2% at both levels, respectively. Overall, our model proves to be effective in identifying nested noun phrases, showcasing the potential of transformer-based models in phrase structure identification. Future research should explore further applications and enhancements of such models in this domain.

Abstract [sv]

I detta projekt tar vi upp uppgiften att identifiera nästlade substantivfraser i engelska meningar, där en fras definieras som en grupp ord som fungerar som en enhet i en mening. Tidigare forskning har utförligt utforskat identifieringen av olika fraser för språkförståelse och textgenereringsuppgifter. Vårt mål är att ta itu med den nya utmaningen att identifiera nästlade substantivfraser i meningar. För att åstadkomma detta granskar vi först befintligt arbete med relaterade ämnen som partiell analys och identifiering av substantivfraser. Därefter föreslår vi en ny metod baserad på transformers-modeller för att rekursivt identifiera nästlade substantivfraser i meningar. Vi finjusterar en förtränad BERT-modell utan kapsling för att upptäcka frasstrukturer i en mening och avgöra om de representerar substantivfraser. Vårt rekursiva tillvägagångssätt innebär att sammanfoga relevanta segment av en mening och att tilldela etiketter till substantivfraserna vid varje steg, vilket underlättar identifieringen av nästlade strukturer. Utvärderingen av vår modell visar lovande resultat och uppnår en hög precision på upp till 93,6% när man tar hänsyn till alla substantivfraser isolerat och 90,9% när man tar hänsyn till meningens förutsagda frasstruktur. Dessutom uppvisar vår modell en täckning (recall) på 83,5% respektive 81,2% på båda nivåerna. Sammantaget visar vår modell sig vara effektiv för att identifiera nästlade substantivfraser, vilket visar potentialen hos transformers-modeller för identifiering av frasstruktur. Framtida forskning bör utforska ytterligare tillämpningar och förbättringar av sådana modeller på detta område.

sted, utgiver, år, opplag, sider
2023. , s. 37
Serie
TRITA-EECS-EX ; 2023:806
Emneord [en]
Phrase detection, nested noun phrase identification, phrase structure identification, sentence parsing, transformer models, machine learning, natural language processing
Emneord [sv]
Frasdetektering, kapslad substantivfrasidentifiering, frasstrukturidentifiering, meningsanalys, transformers-modeller, maskininlärning, naturlig språkbehandling
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-341880OAI: oai:DiVA.org:kth-341880DiVA, id: diva2:1824001
Veileder
Examiner
Tilgjengelig fra: 2024-02-02 Laget: 2024-01-03 Sist oppdatert: 2024-02-02bibliografisk kontrollert

Open Access i DiVA

fulltext(4074 kB)420 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 4074 kBChecksum SHA-512
62e5b8bbe397ae7fe9ab29a7ce9b810b19d64fdb465ba36682adf6ce336a4e197b7a928c12024aae4f445bfa842ef8f7e656203030e410a69b488fee1cdb7943
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 420 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 254 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf