Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Factorisation of Latent Variables in Word Space Models: Studying redistribution of weight on latent variables
KTH, School of Engineering Sciences (SCI).
KTH, School of Engineering Sciences (SCI).
2014 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

The ultimate goal of any DSM is a scalable and accurate representation of lexical semantics.

Recent developments due to Bullinaria & Levy (2012) and Caron (2001) indicate that the accuracy of such models can be improved by redistribution of weight on the principal components. However, this method is poorly understood and barely replicated due to the computational expensive dimension reduction and the puzzling nature of the results. This thesis aims to explore the nature of these results. Beginning by reproducing the results in Bullinaria & Levy (2012) we move onto deepen the understanding of these results, quantitatively as well as qualitatively, using various forms of the BLESS test and juxtapose these with previous results. 

The main result of this thesis is the verification of the 100% score on the TOEFL test and 91.5% on a paradigmatic version of the BLESS test. Our qualitative tests indicate that the redistribution of weight away from the first principal components is slightly different between word categories and hence the improvement in the TOEFL and BLESS results. While we do not find any significant relation between word frequencies and weight distribution, we find an empirical relation for the optimal weight distribution.

Based on these results, we suggest a range of further studies to better understand these phenomena.

Abstract [sv]

Målet med alla semantiska fördelningsmodeller (DSMs) är en skalbaroch precis representation av semantiska relationer. Nya rön från Bullinaria & Levy (2012) och Caron (2001) indikerar att man kan förbättra prestandan avsevärt genom att omfördela vikten ifrån principalkomponenterna med störst varians mot de lägre. Varför metoden fungerar är dock fortfarande oklart, delvis på grund av höga beräkningskostnader för PCA men även på grund av att resultaten strider mot tidigare praxis.

Vi börjar med att replikera resultaten i Bullinaria & Levy (2012) för att sedan fördjupa oss i resultaten, både kvantitativt och kvalitativt, genom att använda oss av BLESS testet.

Huvudresultaten av denna studie är verifiering av 100% på TOEFL testet och ett nytt resultat på en paradigmatisk variant av BLESStestet på 91.5%. Våra resultat tyder på att en omfördelning av vikten ifrån de första principalkomponenterna leder till en förändring i fördelningensins emellan de semantiska relationerna vilket delvis förklarar förbättringen i TOEFL resultaten. Vidare finner vi i enlighet med tidigare resultat ingen signifikant relation mellan ordfrekvenser och viktomfördelning.

Utifrån dessa resultat föreslår vi en rad experiment som kan ge vidare insikt till dessa intressanta resultat.

Place, publisher, year, edition, pages
2014. , 50 p.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-153776OAI: oai:DiVA.org:kth-153776DiVA: diva2:753682
Educational program
Master of Science in Engineering -Engineering Physics
Supervisors
Available from: 2014-10-08 Created: 2014-10-08 Last updated: 2014-10-09Bibliographically approved

Open Access in DiVA

David Ödling & Arvid Österlund kandidatexam(1447 kB)137 downloads
File information
File name FULLTEXT01.pdfFile size 1447 kBChecksum SHA-512
e4cd56a38df4c6b2b4f88d50f7c3d005e27bf4e4a717bb0749cac7d798eef3567b9e7a2bf21beb4e17ca766eb04ed59a0a4982f3a18ef9981ebf7d26db852341
Type fulltextMimetype application/pdf

By organisation
School of Engineering Sciences (SCI)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 137 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 175 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf