kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Enhancing Norwegian Text-to-Speech: Developing a Proof-of-Concept by Applying an Iterative Model Training Approach
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förbättring av norsk text-till-tal : Utveckling av en Proof-of-Concept-modell genom att tillämpa en iterativ modellträningsmetod (Swedish)
Abstract [en]

Text-to-speech (TTS) technology converts written text into synthesized speech. Developing a TTS system for low-resource languages such as Norwegian poses significant challenges due to the limited availability of high-quality, diverse datasets and open-source models. This thesis addresses the problem by developing a proof-of-concept (PoC) TTS model for Norwegian, focusing on adult speech as a precursor to developing a child speech TTS model in the future. In this research, we iteratively trained and evaluated four TTS models using various datasets, including a multi-speaker dataset and two single-speaker datasets. A PoC adult speech TTS model was developed as a foundation for future transfer learning to create child speech TTS models, which are crucial for tools and applications used by children, providing an appropriate voice for their interactions. The models were assessed using both objective metrics, specifically Word Error Rate (WER), and subjective metrics, specifically Mean Opinion Score (MOS), to identify their strengths and weaknesses. The main findings show that combining datasets enhances model performance, as demonstrated by Model 4, which achieved the lowest WER of 14.95% and the highest MOS with scores of 3.96 for intelligibility and 3.14 for naturalness. Additionally, it was found that a larger volume of data is crucial for training intelligible and natural TTS models, but starting with imperfect data can still yield significant results, even with as little as two hours of training data. These insights pave the way for future advancements in TTS technology, ultimately contributing to the creation of high-quality synthetic speech for various applications, including the development of child speech TTS models for scenarios such as police interview training.

Abstract [sv]

Text-to-speech (TTS) teknologin omvandlar skriven text till syntetiskt tal. Att utveckla ett TTS-system för språk med begränsade resurser, såsom norska, innebär betydande utmaningar på grund av den begränsade tillgången på högkvalitativa och varierade dataset samt öppen källkodsmodeller. Denna avhandling adresserar problemet genom att utveckla en proof-of-concept (PoC) TTS-modell för norska, med fokus på vuxental som en föregångare till att utveckla en TTS-modell för barnröst. I denna forskning har vi iterativt tränat och utvärderat flera TTS-modeller med hjälp av olika dataset, inklusive ett dataset med flera talare och två dataset med enskilda talare. En PoC TTS-modell för vuxental utvecklades som en grund för framtida transfer learning för att skapa TTS-modeller för barnröst, vilket är avgörande för tillämpningar som realistiska barnavatarer som används i polisintervjuträning för att bekämpa barnmisshandel. Modellerna utvärderades med både objektiva mått, specifikt Word Error Rate (WER), och subjektiva mått, specifikt Mean Opinion Score (MOS), för att identifiera deras styrkor och svagheter. De viktigaste resultaten visar att kombinationen av dataset förbättrar modellens prestanda, vilket demonstrerades av Model 4, som uppnådde den lägsta WER på 14,95% och den högsta MOS med betyg på 3,96 för begriplighet och 3,14 för naturlighet jämfört med enskilda modeller. Dessutom visade det sig att en större datavolym är avgörande för att träna förståeliga och naturliga TTS-modeller, men att börja med ofullkomliga data kan ändå ge betydande resultat, även med så lite som två timmars träningsdata. Dessa insikter banar väg för framtida framsteg inom TTS-teknologin, vilket slutligen bidrar till skapandet av högkvalitativt syntetiskt tal för olika tillämpningar, inklusive utvecklingen av TTS-modeller för barnröst för scenarier som polisintervjuträning.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 74
Series
TRITA–EECS-EX ; 2024:571
Keywords [en]
Text-to-speech, Proof-of-concept, Low-resource language, Norwegian, Adult speech, Child speech, Matcha-TTS, Mean opinion score, Worderror rate, Data-driven iterative approach
Keywords [sv]
Text-till-tal, Konceptbevis, Resurssvagt språk, Norska, Vuxental, Barntal, Matcha-TTS, Genomsnittligt omdömesbetyg, Ordfelprocent, Datadriven iterativ metod
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352908OAI: oai:DiVA.org:kth-352908DiVA, id: diva2:1896241
External cooperation
SimulaMet
Supervisors
Examiners
Available from: 2024-10-02 Created: 2024-09-09 Last updated: 2024-10-02Bibliographically approved

Open Access in DiVA

fulltext(7309 kB)248 downloads
File information
File name FULLTEXT01.pdfFile size 7309 kBChecksum SHA-512
ed8dada6a33309825df1a3597f231441af6d84bb069fad1e9e3894a8efcded3d0d7ba1a0d5e78b919d37455eff161d36cc1edac3971fe8240ae8f3d02c657e2e
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 249 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 152 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf