kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Enhancing Norwegian Text-to-Speech: Developing a Proof-of-Concept by Applying an Iterative Model Training Approach
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Förbättring av norsk text-till-tal : Utveckling av en Proof-of-Concept-modell genom att tillämpa en iterativ modellträningsmetod (Svenska)
Abstract [en]

Text-to-speech (TTS) technology converts written text into synthesized speech. Developing a TTS system for low-resource languages such as Norwegian poses significant challenges due to the limited availability of high-quality, diverse datasets and open-source models. This thesis addresses the problem by developing a proof-of-concept (PoC) TTS model for Norwegian, focusing on adult speech as a precursor to developing a child speech TTS model in the future. In this research, we iteratively trained and evaluated four TTS models using various datasets, including a multi-speaker dataset and two single-speaker datasets. A PoC adult speech TTS model was developed as a foundation for future transfer learning to create child speech TTS models, which are crucial for tools and applications used by children, providing an appropriate voice for their interactions. The models were assessed using both objective metrics, specifically Word Error Rate (WER), and subjective metrics, specifically Mean Opinion Score (MOS), to identify their strengths and weaknesses. The main findings show that combining datasets enhances model performance, as demonstrated by Model 4, which achieved the lowest WER of 14.95% and the highest MOS with scores of 3.96 for intelligibility and 3.14 for naturalness. Additionally, it was found that a larger volume of data is crucial for training intelligible and natural TTS models, but starting with imperfect data can still yield significant results, even with as little as two hours of training data. These insights pave the way for future advancements in TTS technology, ultimately contributing to the creation of high-quality synthetic speech for various applications, including the development of child speech TTS models for scenarios such as police interview training.

Abstract [sv]

Text-to-speech (TTS) teknologin omvandlar skriven text till syntetiskt tal. Att utveckla ett TTS-system för språk med begränsade resurser, såsom norska, innebär betydande utmaningar på grund av den begränsade tillgången på högkvalitativa och varierade dataset samt öppen källkodsmodeller. Denna avhandling adresserar problemet genom att utveckla en proof-of-concept (PoC) TTS-modell för norska, med fokus på vuxental som en föregångare till att utveckla en TTS-modell för barnröst. I denna forskning har vi iterativt tränat och utvärderat flera TTS-modeller med hjälp av olika dataset, inklusive ett dataset med flera talare och två dataset med enskilda talare. En PoC TTS-modell för vuxental utvecklades som en grund för framtida transfer learning för att skapa TTS-modeller för barnröst, vilket är avgörande för tillämpningar som realistiska barnavatarer som används i polisintervjuträning för att bekämpa barnmisshandel. Modellerna utvärderades med både objektiva mått, specifikt Word Error Rate (WER), och subjektiva mått, specifikt Mean Opinion Score (MOS), för att identifiera deras styrkor och svagheter. De viktigaste resultaten visar att kombinationen av dataset förbättrar modellens prestanda, vilket demonstrerades av Model 4, som uppnådde den lägsta WER på 14,95% och den högsta MOS med betyg på 3,96 för begriplighet och 3,14 för naturlighet jämfört med enskilda modeller. Dessutom visade det sig att en större datavolym är avgörande för att träna förståeliga och naturliga TTS-modeller, men att börja med ofullkomliga data kan ändå ge betydande resultat, även med så lite som två timmars träningsdata. Dessa insikter banar väg för framtida framsteg inom TTS-teknologin, vilket slutligen bidrar till skapandet av högkvalitativt syntetiskt tal för olika tillämpningar, inklusive utvecklingen av TTS-modeller för barnröst för scenarier som polisintervjuträning.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology , 2024. , s. 74
Serie
TRITA–EECS-EX ; 2024:571
Nyckelord [en]
Text-to-speech, Proof-of-concept, Low-resource language, Norwegian, Adult speech, Child speech, Matcha-TTS, Mean opinion score, Worderror rate, Data-driven iterative approach
Nyckelord [sv]
Text-till-tal, Konceptbevis, Resurssvagt språk, Norska, Vuxental, Barntal, Matcha-TTS, Genomsnittligt omdömesbetyg, Ordfelprocent, Datadriven iterativ metod
Nationell ämneskategori
Datavetenskap (datalogi) Datorteknik
Identifikatorer
URN: urn:nbn:se:kth:diva-352908OAI: oai:DiVA.org:kth-352908DiVA, id: diva2:1896241
Externt samarbete
SimulaMet
Handledare
Examinatorer
Tillgänglig från: 2024-10-02 Skapad: 2024-09-09 Senast uppdaterad: 2024-10-02Bibliografiskt granskad

Open Access i DiVA

fulltext(7309 kB)254 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 7309 kBChecksumma SHA-512
ed8dada6a33309825df1a3597f231441af6d84bb069fad1e9e3894a8efcded3d0d7ba1a0d5e78b919d37455eff161d36cc1edac3971fe8240ae8f3d02c657e2e
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Datavetenskap (datalogi)Datorteknik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 255 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 166 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf