Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Speech to Text for Swedish using KALDI
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Optimization and Systems Theory.
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Tal till text, utvecklandet av en svensk taligenkänningsmodell i KALDI (Swedish)
Abstract [en]

The field of speech recognition has during the last decade left the re- search stage and found its way in to the public market. Most computers and mobile phones sold today support dictation and transcription in a number of chosen languages.  Swedish is often not one of them. In this thesis, which is executed on behalf of the Swedish Radio, an Automatic Speech Recognition model for Swedish is trained and the performance evaluated. The model is built using the open source toolkit Kaldi.  Two approaches of training the acoustic part of the model is investigated. Firstly, using Hidden Markov Model and Gaussian Mixture Models and secondly, using Hidden Markov Models and Deep Neural Networks. The later approach using deep neural networks is found to achieve a better performance in terms of Word Error Rate.

Abstract [sv]

De senaste åren har olika tillämpningar inom människa-dator interaktion och främst taligenkänning hittat sig ut på den allmänna marknaden. Många system och tekniska produkter stöder idag tjänsterna att transkribera tal och diktera text. Detta gäller dock främst de större språken och sällan finns samma stöd för mindre språk som exempelvis svenskan. I detta examensprojekt har en modell för taligenkänning på svenska ut- vecklas. Det är genomfört på uppdrag av Sveriges Radio som skulle ha stor nytta av en fungerande taligenkänningsmodell på svenska. Modellen är utvecklad i ramverket Kaldi. Två tillvägagångssätt för den akustiska träningen av modellen är implementerade och prestandan för dessa två är evaluerade och jämförda. Först tränas en modell med användningen av Hidden Markov Models och Gaussian Mixture Models och slutligen en modell där Hidden Markov Models och Deep Neural Networks an- vänds, det visar sig att den senare uppnår ett bättre resultat i form av måttet Word Error Rate.

Place, publisher, year, edition, pages
2016.
Series
TRITA-MAT-E, 2016:42
Keyword [en]
Automatic Speech Recognition, Kaldi, Hidden Markov Model, Gaussian Mixture Model, Deep Neural Network
Keyword [sv]
Taligenkänning, Kaldi, Hidden Markov Model, Gaussian Mixture Models, Deep Neural Networks
National Category
Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-189890OAI: oai:DiVA.org:kth-189890DiVA: diva2:949757
External cooperation
SR, Swedish Radio
Subject / course
Optimization and Systems Theory
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2016-07-22 Created: 2016-07-22 Last updated: 2016-07-22Bibliographically approved

Open Access in DiVA

fulltext(1005 kB)303 downloads
File information
File name FULLTEXT01.pdfFile size 1005 kBChecksum SHA-512
0096a8f2efaa6b4850ada28a16ed3c84a3243ce71677389b7c8cefed0f08b4cee44000f8a7cc3b4abbb4c1dfb44bc78969217022f5825db95dcf99637a79a902
Type fulltextMimetype application/pdf

By organisation
Optimization and Systems Theory
Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 303 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1005 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf