kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Style-Controllable Speech-Driven Gesture Synthesis Using Normalising Flows
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-7801-7617
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-1643-1054
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0001-9838-8848
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1399-6604
2020 (Engelska)Ingår i: Computer graphics forum (Print), ISSN 0167-7055, E-ISSN 1467-8659, Vol. 39, nr 2, s. 487-496Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Automatic synthesis of realistic gestures promises to transform the fields of animation, avatars and communicative agents. In off-line applications, novel tools can alter the role of an animator to that of a director, who provides only high-level input for the desired animation; a learned network then translates these instructions into an appropriate sequence of body poses. In interactive scenarios, systems for generating natural animations on the fly are key to achieving believable and relatable characters. In this paper we address some of the core issues towards these ends. By adapting a deep learning-based motion synthesis method called MoGlow, we propose a new generative model for generating state-of-the-art realistic speech-driven gesticulation. Owing to the probabilistic nature of the approach, our model can produce a battery of different, yet plausible, gestures given the same input speech signal. Just like humans, this gives a rich natural variation of motion. We additionally demonstrate the ability to exert directorial control over the output style, such as gesture level, speed, symmetry and spacial extent. Such control can be leveraged to convey a desired character personality or mood. We achieve all this without any manual annotation of the data. User studies evaluating upper-body gesticulation confirm that the generated motions are natural and well match the input speech. Our method scores above all prior systems and baselines on these measures, and comes close to the ratings of the original recorded motions. We furthermore find that we can accurately control gesticulation styles without unnecessarily compromising perceived naturalness. Finally, we also demonstrate an application of the same method to full-body gesticulation, including the synthesis of stepping motion and stance.

Ort, förlag, år, upplaga, sidor
Wiley , 2020. Vol. 39, nr 2, s. 487-496
Nyckelord [en]
CCS Concepts, Computing methodologies, Motion capture, Animation, Neural networks, Gestures, Motion capture, Data-driven animation, Character control, Probabilistic models, WASP_publications
Nationell ämneskategori
Datavetenskap (datalogi) Människa-datorinteraktion (interaktionsdesign) Språkteknologi (språkvetenskaplig databehandling)
Forskningsämne
Människa-datorinteraktion; Datalogi
Identifikatorer
URN: urn:nbn:se:kth:diva-279231DOI: 10.1111/cgf.13946ISI: 000548709600040Scopus ID: 2-s2.0-85087758857OAI: oai:DiVA.org:kth-279231DiVA, id: diva2:1499133
Konferens
41st Annual Conference of the European-Association-for-Computer-Graphics (EUROGRAPHICS), MAY 25-29, 2020, Norrköping, SWEDEN
Forskningsfinansiär
Vetenskapsrådet, 2018-05409Stiftelsen för strategisk forskning (SSF), RIT15-0107Knut och Alice Wallenbergs Stiftelse, WASP
Anmärkning

QC 20211011

Tillgänglig från: 2020-11-06 Skapad: 2020-11-06 Senast uppdaterad: 2022-06-25Bibliografiskt granskad

Open Access i DiVA

fulltext(9280 kB)1263 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 9280 kBChecksumma SHA-512
22c02c10867082009b0283da8374be127b467be6f6388b6570f32da6715da49c799d5c4fc9d2df179d903b29728366df95844694d76e876826f95c427a05489a
Typ fulltextMimetyp application/pdf
erratum(1288 kB)125 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 1288 kBChecksumma SHA-512
6ed2d42ba38e294c59efc44135816a5688d3cecde232b3e415b84f7b928b8e965b6b555b3f44aacc86dabc9901a5e2e1aff2eb08bf83966eb9b4a184b0e317b5
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopusEurographics Digital Library collection, with supplementsFree full-text

Person

Alexanderson, SimonHenter, Gustav EjeKucherenko, TarasBeskow, Jonas

Sök vidare i DiVA

Av författaren/redaktören
Alexanderson, SimonHenter, Gustav EjeKucherenko, TarasBeskow, Jonas
Av organisationen
Tal, musik och hörsel, TMHRobotik, perception och lärande, RPL
I samma tidskrift
Computer graphics forum (Print)
Datavetenskap (datalogi)Människa-datorinteraktion (interaktionsdesign)Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 1388 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 1967 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf