4041424344454643 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Introducing a Hierarchical Attention Transformer for document embeddings: Utilizing state-of-the-art word embeddings to generate numerical representations of text documents for classification
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Introduktion av Hierarchical Attention Transformer för dokumentrepresentationer (Swedish)
Abstract [en]

The field of Natural Language Processing has produced a plethora of algorithms for creating numerical representations of words or subsets thereof. These representations encode the semantics of each unit which for word level tasks enable immediate utilization. Document level tasks on the other hand require special treatment in order for fixed length representations to be generated from varying length documents.

We develop the Hierarchical Attention Transformer (HAT), a neural network model which utilizes the hierarchical nature of written text for creating document representations. The network rely entirely on attention which enables interpretability of its inferences and context to be attended from anywhere within the sequence.

We compare our proposed model to current state-of-the-art algorithms in three scenarios: Datasets of documents with an average length (1) less than three paragraphs, (2) greater than an entire page and (3) greater than an entire page with a limited amount of training documents. HAT outperforms its competition in case 1 and 2, reducing the relative error up to 33% and 32.5% for case 1 and 2 respectively. HAT becomes increasingly difficult to optimize in case 3 where it did not perform better than its competitors.

Abstract [sv]

Inom fältet Natural Language Processing existerar det en uppsjö av algoritmer för att skapa numeriska representationer av ord eller mindre delar. Dessa representationer fångar de semantiska egenskaperna av orden som för problem på ordnivå direkt går att använda. Ett exempel på ett sådant problem är entitetsigenkänning. Problem på dokumentnivå kräver däremot speciella tillvägagångssätt för att möjliggöra skapandet av representationer med bestämd längd även när dokumentlängden varierar.

Detta examensarbete utvecklar algoritmen Hierarchical Attention Transformer (HAT), ett neuralt nätverk som tar vara på den hierarkiska strukturen hos dokument för att kombinera informationen på ordnivå till en representation på dokumentnivå. Nätverket är helt och hållet baserat på uppmärksamhet vilket möjliggör utnyttjandet av information från hela sekvensen samt förståelse av modellens slutsatser.

HAT jämförs mot de för tillfället bäst presterande dokumentklassificeringsalgoritmerna i tre scenarier: Datasamlingar av dokument med medellängden (1) kortare än tre paragrafer, (2) längre än en hel sida och (3) längre än en hel sida där antalet dokument för träning är begränsat. HAT presterar bättre än konkurrenterna i fall 1 och 2, där felet minskades med upp till 33% och 32.5% för fall 1 respektive 2. Optimeringen av HAT ökade i komplexitet för fall 3, för vilket resultatet inte slog konkurrenterna.

Place, publisher, year, edition, pages
2019. , p. 61
Series
TRITA-EECS-EX ; 2019:817
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-271199OAI: oai:DiVA.org:kth-271199DiVA, id: diva2:1415984
Subject / course
Computer Science
Educational program
Master of Science - Machine Learning
Examiners
Available from: 2020-03-20 Created: 2020-03-20 Last updated: 2020-03-20Bibliographically approved

Open Access in DiVA

fulltext(1012 kB)3 downloads
File information
File name FULLTEXT01.pdfFile size 1012 kBChecksum SHA-512
8d650e4d26b32124e552e07ccca50147c3d5e963d755f891f1c3f908ed4642f011cababe95b979cef58677140fb093cf4787883d1ea273d90c1a2489321cb1aa
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 3 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 10 hits
4041424344454643 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf