Enhancing Norwegian Text-to-Speech: Developing a Proof-of-Concept by Applying an Iterative Model Training Approach
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förbättring av norsk text-till-tal : Utveckling av en Proof-of-Concept-modell genom att tillämpa en iterativ modellträningsmetod (Swedish)
Abstract [en]
Text-to-speech (TTS) technology converts written text into synthesized speech. Developing a TTS system for low-resource languages such as Norwegian poses significant challenges due to the limited availability of high-quality, diverse datasets and open-source models. This thesis addresses the problem by developing a proof-of-concept (PoC) TTS model for Norwegian, focusing on adult speech as a precursor to developing a child speech TTS model in the future. In this research, we iteratively trained and evaluated four TTS models using various datasets, including a multi-speaker dataset and two single-speaker datasets. A PoC adult speech TTS model was developed as a foundation for future transfer learning to create child speech TTS models, which are crucial for tools and applications used by children, providing an appropriate voice for their interactions. The models were assessed using both objective metrics, specifically Word Error Rate (WER), and subjective metrics, specifically Mean Opinion Score (MOS), to identify their strengths and weaknesses. The main findings show that combining datasets enhances model performance, as demonstrated by Model 4, which achieved the lowest WER of 14.95% and the highest MOS with scores of 3.96 for intelligibility and 3.14 for naturalness. Additionally, it was found that a larger volume of data is crucial for training intelligible and natural TTS models, but starting with imperfect data can still yield significant results, even with as little as two hours of training data. These insights pave the way for future advancements in TTS technology, ultimately contributing to the creation of high-quality synthetic speech for various applications, including the development of child speech TTS models for scenarios such as police interview training.
Abstract [sv]
Text-to-speech (TTS) teknologin omvandlar skriven text till syntetiskt tal. Att utveckla ett TTS-system för språk med begränsade resurser, såsom norska, innebär betydande utmaningar på grund av den begränsade tillgången på högkvalitativa och varierade dataset samt öppen källkodsmodeller. Denna avhandling adresserar problemet genom att utveckla en proof-of-concept (PoC) TTS-modell för norska, med fokus på vuxental som en föregångare till att utveckla en TTS-modell för barnröst. I denna forskning har vi iterativt tränat och utvärderat flera TTS-modeller med hjälp av olika dataset, inklusive ett dataset med flera talare och två dataset med enskilda talare. En PoC TTS-modell för vuxental utvecklades som en grund för framtida transfer learning för att skapa TTS-modeller för barnröst, vilket är avgörande för tillämpningar som realistiska barnavatarer som används i polisintervjuträning för att bekämpa barnmisshandel. Modellerna utvärderades med både objektiva mått, specifikt Word Error Rate (WER), och subjektiva mått, specifikt Mean Opinion Score (MOS), för att identifiera deras styrkor och svagheter. De viktigaste resultaten visar att kombinationen av dataset förbättrar modellens prestanda, vilket demonstrerades av Model 4, som uppnådde den lägsta WER på 14,95% och den högsta MOS med betyg på 3,96 för begriplighet och 3,14 för naturlighet jämfört med enskilda modeller. Dessutom visade det sig att en större datavolym är avgörande för att träna förståeliga och naturliga TTS-modeller, men att börja med ofullkomliga data kan ändå ge betydande resultat, även med så lite som två timmars träningsdata. Dessa insikter banar väg för framtida framsteg inom TTS-teknologin, vilket slutligen bidrar till skapandet av högkvalitativt syntetiskt tal för olika tillämpningar, inklusive utvecklingen av TTS-modeller för barnröst för scenarier som polisintervjuträning.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 74
Series
TRITA–EECS-EX ; 2024:571
Keywords [en]
Text-to-speech, Proof-of-concept, Low-resource language, Norwegian, Adult speech, Child speech, Matcha-TTS, Mean opinion score, Worderror rate, Data-driven iterative approach
Keywords [sv]
Text-till-tal, Konceptbevis, Resurssvagt språk, Norska, Vuxental, Barntal, Matcha-TTS, Genomsnittligt omdömesbetyg, Ordfelprocent, Datadriven iterativ metod
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352908OAI: oai:DiVA.org:kth-352908DiVA, id: diva2:1896241
External cooperation
SimulaMet
Supervisors
Examiners
2024-10-022024-09-092024-10-02Bibliographically approved