kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Generation of speech and facial animation with controllable articulatory effort for amusing conversational characters
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-0397-6442
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1175-840X
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1399-6604
2023 (Engelska)Ingår i: 23rd ACM International Conference on Interlligent Virtual Agent (IVA 2023), Institute of Electrical and Electronics Engineers (IEEE) , 2023Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Engaging embodied conversational agents need to generate expressive behavior in order to be believable insocializing interactions. We present a system that can generate spontaneous speech with supporting lip movements. The neural conversational TTSvoice is trained on a multi-style speech corpus that has been prosodically tagged (pitch and speaking rate) and transcribed (including tokens for breathing, fillers and laughter). We introduce a speech animation algorithm where articulatory effort can be adjusted. The facial animation is driven by time-stamped phonemes and prominence estimates from the synthesised speech waveform to modulate the lip and jaw movements accordingly. In objective evaluations we show that the system is able to generate speech and facial animation that vary in articulation effort. In subjective evaluations we compare our conversational TTS system’s capability to deliver jokes with a commercial TTS. Both systems succeeded equally good.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE) , 2023.
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling) Robotteknik och automation
Identifikatorer
URN: urn:nbn:se:kth:diva-341039DOI: 10.1145/3570945.3607289Scopus ID: 2-s2.0-85183581153OAI: oai:DiVA.org:kth-341039DiVA, id: diva2:1820903
Konferens
23rd ACM International Conference on Intelligent Virtual Agent (IVA 2023), Würzburg, Germany, Jan 5 2023 - Jan 8 2023
Anmärkning

Part of ISBN 9798350345445

QC 20231124

Tillgänglig från: 2023-12-19 Skapad: 2023-12-19 Senast uppdaterad: 2024-02-09Bibliografiskt granskad

Open Access i DiVA

fulltext(10059 kB)95 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 10059 kBChecksumma SHA-512
57413af67560250a143cb519cad54592d14d91be581ae656f66ea3c52861db2833a9dce56859d1bfdaf66e8e7ffa82e09741556caedd1718f353c7ba1795dc3f
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopus

Person

Gustafsson, JoakimSzékely, ÉvaBeskow, Jonas

Sök vidare i DiVA

Av författaren/redaktören
Gustafsson, JoakimSzékely, ÉvaBeskow, Jonas
Av organisationen
Tal, musik och hörsel, TMH
Språkteknologi (språkvetenskaplig databehandling)Robotteknik och automation

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 96 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 172 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf