kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Prosodic characteristics of English-accented Swedish neural TTS
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH, Tal-kommunikation. Swedish Agency for Accessible Media.ORCID-id: 0000-0002-9659-1532
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-2598-6868
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-4628-3769
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0001-9327-9482
Visa övriga samt affilieringar
2024 (Engelska)Ingår i: Proceedings of Speech Prosody 2024, Leiden, The Netherlands: International Speech Communication Association , 2024, s. 1035-1039Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Neural text-to-speech synthesis (TTS) captures prosodicfeatures strikingly well, notwithstanding the lack of prosodiclabels in training or synthesis. We trained a voice on a singleSwedish speaker reading in Swedish and English. The resultingTTS allows us to control the degree of English-accentedness inSwedish sentences. English-accented Swedish commonlyexhibits well-known prosodic characteristics such as erroneoustonal accents and understated or missed durational differences.TTS quality was verified in three ways. Automatic speechrecognition resulted in low errors, verifying intelligibility.Automatic language classification had Swedish as the majoritychoice, while the likelihood of English increased with ourtargeted degree of English-accentedness. Finally, a rank ofperceived English-accentedness acquired through pairwisecomparisons by 20 human listeners demonstrated a strongcorrelation with the targeted English-accentedness.We report on phonetic and prosodic analyses of theaccented TTS. In addition to the anticipated segmentaldifferences, the analyses revealed temporal and prominencerelated variations coherent with Swedish spoken by Englishspeakers, such as missing Swedish stress patterns and overlyreduced unstressed syllables. With this work, we aim to gleaninsights into speech prosody from the latent prosodic featuresof neural TTS models. In addition, it will help implementspeech phenomena such as code switching in TTS

Ort, förlag, år, upplaga, sidor
Leiden, The Netherlands: International Speech Communication Association , 2024. s. 1035-1039
Nyckelord [en]
foreign-accented text-to-speech synthesis, neural text-to-speech synthesis, latent prosodic features
Nationell ämneskategori
Humaniora och konst Jämförande språkvetenskap och allmän lingvistik
Forskningsämne
Tal- och musikkommunikation
Identifikatorer
URN: urn:nbn:se:kth:diva-349946DOI: 10.21437/SpeechProsody.2024-209Scopus ID: 2-s2.0-105008058763OAI: oai:DiVA.org:kth-349946DiVA, id: diva2:1881737
Konferens
Speech Prosody 2024, Leiden, The Netherlands, 2-5 July 2024
Projekt
Deep learning based speech synthesis for reading aloud of lengthy and information rich texts in Swedish (2018-02427)Språkbanken Tal (2017-00626)
Forskningsfinansiär
Vinnova, (2018-02427
Anmärkning

QC 20240705

Tillgänglig från: 2024-07-03 Skapad: 2024-07-03 Senast uppdaterad: 2025-07-01Bibliografiskt granskad

Open Access i DiVA

fulltext(511 kB)243 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 511 kBChecksumma SHA-512
ae43bef131ad676c45e4124abfa4ad2e6ec674173781b55331238af708e03d70e27412abac92d0f0673d69d1739156524196cbcf54e6b54d8394478034c85438
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopusPdf

Person

Tånnander, ChristinaO'Regan, JimHouse, DavidEdlund, JensBeskow, Jonas

Sök vidare i DiVA

Av författaren/redaktören
Tånnander, ChristinaO'Regan, JimHouse, DavidEdlund, JensBeskow, Jonas
Av organisationen
Tal-kommunikationTal, musik och hörsel, TMH
Humaniora och konstJämförande språkvetenskap och allmän lingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 244 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 563 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf