kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
OverFlow: Putting flows on top of neural transducers for better TTS
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0002-1886-681X
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0003-0292-1164
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0001-9537-8505
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0003-1399-6604
Show others and affiliations
2023 (English)In: Interspeech 2023, International Speech Communication Association , 2023, p. 4279-4283Conference paper, Published paper (Refereed)
Abstract [en]

Neural HMMs are a type of neural transducer recently proposed for sequence-to-sequence modelling in text-to-speech. They combine the best features of classic statistical speech synthesis and modern neural TTS, requiring less data and fewer training updates, and are less prone to gibberish output caused by neural attention failures. In this paper, we combine neural HMM TTS with normalising flows for describing the highly non-Gaussian distribution of speech acoustics. The result is a powerful, fully probabilistic model of durations and acoustics that can be trained using exact maximum likelihood. Experiments show that a system based on our proposal needs fewer updates than comparable methods to produce accurate pronunciations and a subjective speech quality close to natural speech.

Place, publisher, year, edition, pages
International Speech Communication Association , 2023. p. 4279-4283
Keywords [en]
acoustic modelling, Glow, hidden Markov models, invertible post-net, Probabilistic TTS
National Category
Natural Language Processing
Identifiers
URN: urn:nbn:se:kth:diva-338584DOI: 10.21437/Interspeech.2023-1996ISI: 001186650304087Scopus ID: 2-s2.0-85167953412OAI: oai:DiVA.org:kth-338584DiVA, id: diva2:1810297
Conference
24th International Speech Communication Association, Interspeech 2023, August 20-24, 2023, Dublin, Ireland
Note

QC 20241014

Available from: 2023-11-07 Created: 2023-11-07 Last updated: 2025-08-13Bibliographically approved
In thesis
1. Probabilistic Speech & Motion Synthesis: Towards More Expressive and Multimodal Generative Models
Open this publication in new window or tab >>Probabilistic Speech & Motion Synthesis: Towards More Expressive and Multimodal Generative Models
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Human communication is richly multimodal, combining speech with co-speech gestures to convey meaning, intention, and affect. Both modalities are shaped by context and communicative intent, and exhibit substantial variability in timing, prosody, and motion. Accurately generating these behaviors from text presents a fundamental challenge in artificial intelligence. Traditional deterministic systems fall short in capturing this diversity, leading to oversmoothed, repetitive outputs that lack spontaneity. This thesis addresses these limitations by developing a sequence of probabilistic generative models for high-quality, efficient, and expressive synthesis of speech and co-speech gestures from textual input.

We begin by advancing probabilistic text-to-speech (TTS) through the integration of monotonic alignment and duration modeling via neural Hidden Markov Models (HMMs). These models replace attention mechanisms with a left-to-right HMM with emissions parameterized via neural networks and offer robust, data-efficient training with exact likelihood optimization and controllable prosody. Building on this foundation, we introduce OverFlow, a framework that combines neural HMMs with normalizing flows to model the complex, non-Gaussian distribution of speech acoustics. This enables fully probabilistic modeling and sampling of audio features with improved likelihood and naturalness. To achieve faster yet expressive synthesis, we present Matcha-TTS, a non-autoregressive (NAR) TTS system trained with optimal-transport conditional flow matching (OT-CFM). This model leverages efficient ODE-based sampling and a lightweight convolutional transformer architecture, significantly reducing the number of synthesis steps needed while maintaining high perceptual quality. We further investigate probabilistic duration modeling in the context of fast non-autoregressive TTS models and demonstrate that probabilistic modeling substantially benefits spontaneous speech synthesis, where duration variability is high and deterministic models underperform. Expanding from unimodal to multimodal generation, we explore the joint synthesis of speech and co-speech gesture. Diff-TTSG introduces a diffusion-based framework for integrated generation using double diffusion decoders, while Match-TTSG improves synthesis speed and coherence by extending OT-CFM to the multimodal domain with the help of a unified decoder. Match-TTSG learns the joint distribution over acoustic and gestural features, enabling synchronized and cross-modally appropriate output from a single generative process. To address data scarcity in multimodal corpora, we propose Fake it to make it, a two-stage strategy where synthetic data generated from powerful unimodal models is used to pretrain a multimodal generative system, yielding improved downstream performance. Finally, the thesis transitions to discrete audio modeling and large language models (LLMs). We propose LM-MSN, which combines variational quantization with flow-matching reconstruction to produce low-bitrate discrete audio tokens. This facilitates early fusion of audio and text tokens and enables multimodal LLM training for both audio comprehension and generation. Together, the contributions of this thesis represent a coherent progression from probabilistic speech synthesis to unified multimodal generation and scalable discrete modeling. By leveraging expressive generative modeling across modalities, we demonstrate how probabilistic modeling can overcome the limitations of deterministic synthesis and move towards more natural, controllable, and expressive communicative AI.

Abstract [sv]

Mänsklig kommunikation är multimodal och kombinerar tal med gester i samspråk för att förmedla mening, avsikt och känsla. Båda modaliteterna formas av sammanhanget och våra kommunikativa intentioner, och uppvisar stor variation i timing, prosodi och rörelse. Att korrekt syntetisera dessa beteenden från text är ett centralt problem inom artificiell intelligens. Traditionella, deterministiska system lyckas inte fånga denna mångfald, vilket leder till repetitiv och onaturligt utslätade utdata med bristande spontanitet. Denna avhandling bemöter dessa tillkortakommanden genom att utveckla en uppsättning probabilistiska generativa modeller för högkvalitativ, beräkningseffektiv och uttrycksfull syntes av tal och gester från textindata.

Först vidareutvecklar vi probabilistisk talsyntes (engelsk förkortning TTS) genom at integrera neurala dolda Markovmodeller (neurala HMM:er), vilka erbjuder varaktighetsmodeller och monoton matchning mellan utdata och utdata. Detta upplägg ersätter neurala uppmärksamhetsmekanismer i konventionell neural talsyntes med en vänster-till-höger HMM vars fördelningsfunktioner definieras av neurala nätverk och erbjuder robust, dataeffektiv träning med exakt sannolikhetsmaximering och kontrollerbar prosodi. Med denna modell som grund introducerar vi sedan OverFlow, ett ramverk som kombinerar neurala HMM:er med normaliserande flöden för att beskriva den komplexa, icke-Gaussiska fördelningen av akustiska särdrag hos tal. Detta möjliggör probabilistisk modellering och sampling av talakustik med förbättrad sannolikhet och naturlighet. För att erhålla snabbare men likväl uttrycksfull syntes presenterar vi Matcha-TTS, en icke-autoregressivt (engelsk förkortning NAR) TTS-metod som tränas med villkorlig flödesmatchning med optimal transportteori (så kallad OT-CFM). Denna modell kombinerar numeriskt lättlösta ordinära differentialekvationer (ODE) med en beräkningseffektiv transformerarkitektur, vilket avsevärt minskar antalet tidssteg som behövs vid syntes samtidigt som hög perceptuell kvalitet bibehålls. Vi undersöker vidare probabilistisk varaktighetsmodellering i samband med effektiva icke-autoregressiva text-till-talmodeller och visar att probabilistiska modeller signifikant gynnar spontan talsyntes, där det förkommer väsentligt variabel varaktighet och deterministiska modeller underpresterar. Vi expanderar från unimodal till multimodal output genom att utforska samtidig syntes av tal och samtalgester. Diff-TTSG introducerar ett diffusionsbaserat ramverk för at generera dessa två modaliteter parallellt i ett integrerat system med hjälp av dubbla diffusionsprocesser, medan Match-TTSG förbättrar synteshastighet och koherens genom att tillämpa OT-CFM på multimodala data med en gemensam ODE vid probabilistisk syntes. Match-TTSG lär sig den gemensamma fördelningen över ljud- och gestegenskaper, vilket möjliggör synkron och korsmodalt koherent utdata från en enda generativ process. För att hantera bristen på datamängder med alla modaliteter samtidigt lanserar vi Fake it to make it, en tvåstegsstrategi där syntetiska data genererade från kraftfulla modeller av en modalitet i taget används för att förträna ett multimodalt syntessystem, vilket ger förbättrat slutresultat. Slutligen behandlar avhandlingen diskreta modeller av ljuddata och stora språkmodeller (LLM:er i engelsk förkortning). Vi föreslår LM-MSN, som kombinerar kvantisering med flödesmatchningsrekonstruktion för att möjliggöra en diskret ljudrepresentation med låg bithastighet. Detta möjliggör multimodal LLM-träning på sekvenser med både text och diskreta ljudrepresentationer, för förståelse såväl som syntes av ljud. Tillsammans beskriver bidragen i denna avhandling en sammanhängande utveckling från probabilistisk talsyntes till enhetliga multimodala modeller och skalbar diskret modellering. Genom att använda expressiv, generativ modellering för ett flertal modaliteter demonstrerar vi hur probabilistiska metoder kan övervinna begränsningarna hos deterministisk syntes och leda till mer naturlig, kontrollerbar och expressiv kommunikativ AI.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2025. p. 71
Series
TRITA-EECS-AVL ; 2025:76
Keywords
text-to-speech, speech synthesis, co-speech gesture synthesis, multimodal synthesis, probabilistic generative models, neural hidden Markov models, HMMs, normalizing flows, durations modeling, diffusion models, score matching, conditional flow matching, OT-CFM, probabilistic duration modeling, spontaneous speech, large language models, LLMs, variational quantization, VQ-VAE, audio comprehension, audio generation., text till tal, talsyntes, gestsyntes, multimodal syntes, probabilistiska generativa modeller, neurala dolda Markovmodeller, HMM:er, normaliserande flöden, varaktighetsmodellering, diffusionsmodeller, score-matchning, betingad flödesmatchning, OT-CFM, probabilistisk varaktighetsmodellering, spontant tal, stora språkmodeller, LLM:er, variationell kvantisering, VQ-VAE, ljudförståelse, ljudsyntes.
National Category
Computer and Information Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-368342 (URN)978-91-8106-360-8 (ISBN)
Public defence
2025-09-12, https://kth-se.zoom.us/j/69476396694, Kollegiesalen, Brinellvägen 8, KTH Campus, Stockholm, 13:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 3420 WASP SM GeH
Note

QC 20250814

Available from: 2025-08-14 Created: 2025-08-13 Last updated: 2025-08-27Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textScopus

Authority records

Mehta, ShivamKirkland, AmbikaLameris, HarmBeskow, JonasSzékely, ÉvaHenter, Gustav Eje

Search in DiVA

By author/editor
Mehta, ShivamKirkland, AmbikaLameris, HarmBeskow, JonasSzékely, ÉvaHenter, Gustav Eje
By organisation
Speech, Music and Hearing, TMH
Natural Language Processing

Search outside of DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 119 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf