kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Perception of smiling voice in spontaneous speech synthesis
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-0292-1164
Department of Linguistics, Stockholm University, Sweden.
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-0397-6442
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1175-840X
2021 (Engelska)Ingår i: Proceedings of Speech Synthesis Workshop (SSW11), International Speech Communication Association , 2021, s. 108-112Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Smiling during speech production has been shown to result in perceptible acoustic differences compared to non-smiling speech. However, there is a scarcity of research on the perception of “smiling voice” in synthesized spontaneous speech. In this study, we used a sequence-to-sequence neural text-tospeech system built on conversational data to produce utterances with the characteristics of spontaneous speech. Segments of speech following laughter, and the same utterances not preceded by laughter, were compared in a perceptual experiment after removing laughter and/or breaths from the beginning of the utterance to determine whether participants perceive the utterances preceded by laughter as sounding as if they were produced while smiling. The results showed that participants identified the post-laughter speech as smiling at a rate significantly greater than chance. Furthermore, the effect of content (positive/neutral/negative) was investigated. These results show that laughter, a spontaneous, non-elicited phenomenon in our model’s training data, can be used to synthesize expressive speech with the perceptual characteristics of smiling.

Ort, förlag, år, upplaga, sidor
International Speech Communication Association , 2021. s. 108-112
Nyckelord [en]
speech synthesis, text-to-speech, smiling voice, smiled speech
Nationell ämneskategori
Språkbehandling och datorlingvistik
Forskningsämne
Tal- och musikkommunikation
Identifikatorer
URN: urn:nbn:se:kth:diva-329143DOI: 10.21437/SSW.2021-19OAI: oai:DiVA.org:kth-329143DiVA, id: diva2:1768550
Konferens
Speech Synthesis Workshop (SSW11), Budapest, Hungary, August 26-28, 2021
Forskningsfinansiär
Vetenskapsrådet, VR-2020-02396Vetenskapsrådet, VR-2019- 05003Riksbankens Jubileumsfond, P20-0298
Anmärkning

QC 20230616

Tillgänglig från: 2023-06-15 Skapad: 2023-06-15 Senast uppdaterad: 2025-02-07Bibliografiskt granskad

Open Access i DiVA

fulltext(286 kB)222 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 286 kBChecksumma SHA-512
b276501ec612001e3c2d0bb325822984df70a4e6c2ccd6d7e008f347330051630ebbfd05e586ae09728a6c0bbb2ee0ef04f4e1d5dd77e6ca70ae8141526c017a
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltext

Person

Kirkland, AmbikaGustafsson, JoakimSzékely, Éva

Sök vidare i DiVA

Av författaren/redaktören
Kirkland, AmbikaGustafsson, JoakimSzékely, Éva
Av organisationen
Tal, musik och hörsel, TMH
Språkbehandling och datorlingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 222 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 482 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf