kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A WaveNet-Based Model for Predicting the Electroglottographic Signal from the Acoustic Voice Signal
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0003-0700-7216
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0002-3362-7518
(English)Manuscript (preprint) (Other academic)
National Category
Signal Processing
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-360206OAI: oai:DiVA.org:kth-360206DiVA, id: diva2:1939018
Note

QC 20250220

Available from: 2025-02-20 Created: 2025-02-20 Last updated: 2025-02-21Bibliographically approved
In thesis
1. Mapping voice quality in normal, pathological and synthetic voices
Open this publication in new window or tab >>Mapping voice quality in normal, pathological and synthetic voices
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Voice quality evaluation is an integral aspect of both clinical and technological applications, encompassing areas such as speech therapy, phonation disorder diagnosis, and text-to-speech (TTS) synthesis. Traditional methods of assessing voice quality are often subjective, relying on auditory-perceptual evaluation scales, which introduce variability and bias. This thesis explores several novel applications for objective voice quality assessment, utilizing voice mapping—a visualization technique that integrates voice range and quality metrics. By plotting acoustic and electroglottographic (EGG) metrics across a plane defined by fundamental frequency (fo) and sound pressure level (SPL), voice mapping enables a comprehensive understanding of vocal characteristics.

This thesis is based on a compilation of five studies, three of which have been published in archive journals and two of which are in revision at this writing. Paper I establishes the foundational relationship between voice metrics and the fo and the SPL using data from individuals with vocal disorders. Paper II extends the methodology by employing clustering techniques to classify phonation types based on a diverse dataset of normophonic adults and children. Paper III applies voice mapping to pre- and post-thyroidectomy recordings, revealing surgery-induced changes in voice quality and range. Paper IV develops a deep learning-based model for predicting EGG signals from acoustic recordings. Paper V demonstrates the utility of voice mapping in evaluating the performance of synthetic TTS voices, indicating its potential for objective, metric-based TTS quality assessment.

This thesis further speaks for the importance of integrating acoustic and EGG metrics to achieve an objective assessment of voice quality. The metrics used in this approach, including acoustic and EGG-based measures, capture aspects of phonation in both the time and frequency domains, enabling detailed characterization of vocal dynamics. The findings demonstrate that voice mapping is effective not only in clinical settings for understanding voicedisorders but also offers a robust framework for evaluating synthetic voices, helping to bridge the gap between perceptual evaluation and quantitative analysis. Future directions include refining clustering methodologies, enhancing EGG prediction accuracy, and expanding the application of voice mapping to broader clinical and technological applications.

Abstract [sv]

Utvärdering av röstkvalitet är en viktig aspekt inom både kliniska och teknologiska tillämpningar och omfattar områden som talterapi, diagnos av fonationsstörningar och text-till-tal (TTS) syntes. Traditionella metoder för att bedöma röstkvalitet är ofta subjektiva och bygger på auditiv-perceptuella utvärderingsskalor, vilket kan leda till variation och partiskhet. Denna avhandling utforskar flera nya tillämpningar för objektiv röstkvalitetsbedömning med hjälp av röstkartläggning – en visualiseringsteknik som integrerar röstomfång och kvalitetsmått. Genom att plotta akustiska och elektroglottografiska (EGG) mått på ett plan definierat av grundtonsfrekvens (fo) och ljudtrycksnivå (SPL), möjliggör röstkartläggning en omfattande förståelse av röstegenskaper.

Denna avhandling bygger på en sammanställning av fem studier, varav tre har publicerats i arkivtidskrifter, och två i skrivande stund är under granskning. Artikel I påvisar det grundläggande beroendet hos röstmått av grundtonsfrekvens och ljudtrycksnivå, genom analys av data från individer med röststörningar. Artikel II utökar metodiken genom att använda klustringstekniker för att klassificera fonationstyper baserat på ett inspelnings-korpus av normofoniska vuxna och barn. Artikel III tillämpar röstkartläggning på inspelningar före och efter tyroidektomi och påvisar kirurgiska förändringar i röstkvalitet och omfång. Artikel IV redogör för en djupinlärningsbaserad modell för att förutspå EGG-signaler från akustiska inspelningar. Artikel V visar nyttan av röstkartläggning vid utvärdering av syntetiska TTS-röster och lyfter fram dess potential för objektiv, måttbaserad bedömning av TTS-kvalitet.

Denna avhandling belyser vikten av att integrera akustiska och EGG-mått för att uppnå en objektiv bedömning av röstkvalitet. De mått som används i denna metodik, inklusive akustiska och EGG-baserade mått, fångar aspekter av fonation i såväl tids- som frekvensdomänen, vilket möjliggör en detaljerad karakterisering av röstens dynamik. Resultaten visar att röstkartläggning är effektiv inte bara i kliniska miljöer för att förstå röststörningar utan också erbjuder en robust ram för utvärdering av syntetiska röster. Röstkartor bidrar till synergin mellan perceptuell och kvantitativ röstanalys. Framtida forskningsinriktningar inkluderar förbättring av klustringsmetoder, ökad noggrannhet i EGG-prediktion och utvidgning av röstkartläggning till bredare kliniska och teknologiska tillämpningar.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. 72
Series
TRITA-EECS-AVL ; 2025:25
Keywords
Voice quality, voice mapping, text-to-speech (TTS), electroglottography (EGG), acoustic metrics, Röstkvalitet, röstkartläggning, text-till-tal (TTS), elektroglottografi (EGG), akustiska mått
National Category
Signal Processing
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-360211 (URN)978-91-8106-206-9 (ISBN)
Public defence
2025-03-14, https://kth-se.zoom.us/j/61856204062?pwd=0aLP1ptM9OMUaaXUFuSBxV6bbu74iO.1, Rum B:218, Q2, Malvinas Väg 10, KTH Campus, Stockholm, 14:00 (English)
Opponent
Supervisors
Note

QC 20250224

Available from: 2025-02-24 Created: 2025-02-21 Last updated: 2025-03-05Bibliographically approved

Open Access in DiVA

No full text in DiVA

Authority records

Cai, HuanchenTernström, Sten

Search in DiVA

By author/editor
Cai, HuanchenTernström, Sten
By organisation
Speech, Music and Hearing, TMH
Signal Processing

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 125 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf