kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Towards Adaptable and Intelligible Speech Synthesis in Noisy Environments
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-1001-6415
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1399-6604
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-0397-6442
2025 (Engelska)Ingår i: Interspeech 2025, International Speech Communication Association , 2025, s. 2165-2169Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

We present an investigation into adaptable speech synthesis for noisy environments. Leveraging a zero-shot TTS we synthesized a corpus of 1,200 speech samples from 100 sentences of varying complexity, each generated at six distinct levels of vocal effort. To simulate realistic listening conditions, the synthesized speech is merged with environmental noise recordings from a diverse range of indoor and transportation settings at nine different signal-to-noise ratios. We assess the intelligibility of the resulting noisy speech using the ASR word error rates across conditions. Additionally, the input text was evaluated using four metrics on sentence complexity and word predictability. A number of regression models that used noise type, SNR, vocal effort and text as input were trained to predict ASR WER. Results show that increased vocal effort improves intelligibility, with benefits up to 30% in adverse conditions, most most pronounced in environments with competing speech at low SNRs.

Ort, förlag, år, upplaga, sidor
International Speech Communication Association , 2025. s. 2165-2169
Nyckelord [en]
noisy environments, speech adaptation, speech intelligibility, speech synthesis
Nationell ämneskategori
Språkbehandling och datorlingvistik Signalbehandling Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-372805DOI: 10.21437/Interspeech.2025-2787Scopus ID: 2-s2.0-105020064005OAI: oai:DiVA.org:kth-372805DiVA, id: diva2:2013493
Konferens
26th Interspeech Conference 2025, Rotterdam, Netherlands, Kingdom of the, August 17-21, 2025
Anmärkning

QC 20251113

Tillgänglig från: 2025-11-13 Skapad: 2025-11-13 Senast uppdaterad: 2025-11-13Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Marcinek, LubosBeskow, JonasGustafsson, Joakim

Sök vidare i DiVA

Av författaren/redaktören
Marcinek, LubosBeskow, JonasGustafsson, Joakim
Av organisationen
Tal, musik och hörsel, TMH
Språkbehandling och datorlingvistikSignalbehandlingDatavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 68 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf