kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Multimodal analysis of the predictability of hand-gesture properties
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0001-9838-8848
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0002-9653-6699
University of California, Davis, Davis, CA, USA.ORCID-id: 0000-0003-0226-2808
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0002-5750-9655
Visa övriga samt affilieringar
2022 (Engelska)Ingår i: AAMAS '22: Proceedings of the 21st International Conference on Autonomous Agents and Multiagent Systems, ACM Press, 2022, s. 770-779Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Embodied conversational agents benefit from being able to accompany their speech with gestures. Although many data-driven approaches to gesture generation have been proposed in recent years, it is still unclear whether such systems can consistently generate gestures that convey meaning. We investigate which gesture properties (phase, category, and semantics) can be predicted from speech text and/or audio using contemporary deep learning. In extensive experiments, we show that gesture properties related to gesture meaning (semantics and category) are predictable from text features (time-aligned FastText embeddings) alone, but not from prosodic audio features, while rhythm-related gesture properties (phase) on the other hand can be predicted from audio features better than from text. These results are encouraging as they indicate that it is possible to equip an embodied agent with content-wise meaningful co-speech gestures using a machine-learning model.

Ort, förlag, år, upplaga, sidor
ACM Press, 2022. s. 770-779
Nyckelord [en]
embodied conversational agents, gesture generation, gesture analysis, gesture property
Nationell ämneskategori
Datavetenskap (datalogi) Människa-datorinteraktion (interaktionsdesign)
Forskningsämne
Datalogi; Människa-datorinteraktion
Identifikatorer
URN: urn:nbn:se:kth:diva-312470DOI: 10.5555/3535850.3535937Scopus ID: 2-s2.0-85134341889OAI: oai:DiVA.org:kth-312470DiVA, id: diva2:1659101
Konferens
21st International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2022, Auckland, New Zealand, May 9-13, 2022
Forskningsfinansiär
Stiftelsen för strategisk forskning (SSF)Wallenberg AI, Autonomous Systems and Software Program (WASP)Knut och Alice Wallenbergs Stiftelse
Anmärkning

Part of proceedings ISBN: 9781450392136

QC 20220621

Tillgänglig från: 2022-05-19 Skapad: 2022-05-19 Senast uppdaterad: 2023-04-26Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopushttps://dl.acm.org/doi/abs/10.5555/3535850.3535937

Person

Kucherenko, TarasNagy, RajmundKjellström, HedvigHenter, Gustav Eje

Sök vidare i DiVA

Av författaren/redaktören
Kucherenko, TarasNagy, RajmundNeff, MichaelKjellström, HedvigHenter, Gustav Eje
Av organisationen
Robotik, perception och lärande, RPLTal, musik och hörsel, TMH
Datavetenskap (datalogi)Människa-datorinteraktion (interaktionsdesign)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 91 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf