Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Discovering Words from Continuous Speech – A study of two factor analysis methods.
KTH, School of Computer Science and Communication (CSC).
2012 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Modern speech recognizers rely on preprogrammed knowledge of specific languages and extensive examples including annotations. Children however are remarkably well-adapted to learning language without such help, learning from examples of the speech itself and from the environment in which they live. Modelling this learning process is a very interesting but also a very complex topic which encompasses not only speech but all the senses a child has at its disposal. In this thesis, a subset of this problem is studied, namely the discovery of words from continuous speech without prior knowledge of the language.

Two different methods are used for this purpose. The basic premise of both methods is to find frequently repeating patterns in spoken utterances, and both methods approach this problem in a similar manner. Given a matrix of fixed-length representations of utterances, both methods decompose the matrix into a weighted linear combination of sparse vectors. The first method is a recently developed non-parametric Bayesian method for factor analysis, called Beta Process Factor Analysis (BPFA). This method is modified and applied to the problem of word discovery from continuous speech. The second method, Non-negative Matrix Factorization (NMF) has been previously applied for the same purpose and this method is used here as a reference.

The new method has the advantage compared to NMF of being able to infer the size of the basis, and thereby also the number of recurring patterns, or word candidates, found in the data. Results obtained with BPFA, are compared with NMF on the TIDigits database, showing that the new method is capable of not only finding the correct words, but also the correct number of words. It is further demonstrated that the method can infer the approximate number of words for different vocabulary sizes by testing on randomly generated sequences of words.

Abstract [sv]

Moderna taligenkännare är beroende av förprogrammerad kunskap om språk och omfattande annoterade exempel. Barn är dock påfallande välanpassade för att lära sig språket utan sådana hjälpmedel. De lär sig istället från exempel av tal och från den miljö de växer upp i. Att modellera denna inlärningsprocess är ett mycket intressant men också ett väldigt komplext problem, som inte bara innefattar tal utan alla de sinnen barnet har tillgängligt.

I det här exjobbet studeras en del av detta problem, att upptäcka ord från kontinuerligt tal utan tidigare kunskap om språket i fråga. Två olika metoder används för detta syfte. Det grundläggande antagandet för båda metoder är detsamma och så är även tillvägagångssättet. Båda metoder försöker hitta ofta förekommande sekvenser i yttranden och båda metoder går ut på att hitta en linjär kombination av vektorer som bäst representerar en matris som innehåller representationer av ett antal yttranden.

Den första metoden är en nyligen utvecklad metod som använder ickeparametrisk Bayesisk statistik för att utföra faktoranalys. Metoden kallas Beta Process Factor Analysis (BPFA) och anpassas i det här exjobbet för att kunna användas för ordupptäckt. Den andra metoden kallas Non-negative Matrix Factorization (NMF) och har tidigare använts för ordupptäckt, denna metod används i det här exjobbet som en referens. Fördelen med den nya metoden jämfört med NMF är att den kan hitta antalet vektorer som bäst representerar yttranden och därmed även antalet ordkandidater. Resultaten som erhålls med BPFA jämförs med NMF på TIDigits-databasen, och i exjobbet visas att den nya metoden inte bara kan hitta orden utan även det korrekta antalet ord. Vidare visas att BPFA kan antyda det ungefärliga antalet ord som finns i slumpvis genererade meningar med olika storlekar på vokabulären.

Place, publisher, year, edition, pages
2012.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2012:032
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130993OAI: oai:DiVA.org:kth-130993DiVA: diva2:654439
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2012/rapporter12/vanhainen_niklas_12032.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 27 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf