Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Reconstructing Tongue Movements from Audio and Video
KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.ORCID-id: 0000-0002-5750-9655
KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT. KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-4532-014X
KTH, Skolan för datavetenskap och kommunikation (CSC), Människa-datorinteraktion, MDI.ORCID-id: 0000-0001-5626-1187
2006 (Engelska)Ingår i: INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, Vol. 1-5, BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2006, s. 2238-2241Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

This paper presents an approach to articulatory inversion using audio and video of the user's face, requiring no special markers. The video is stabilized with respect to the face, and the mouth region cropped out. The mouth image is projected into a learned independent component subspace to obtain a low-dimensional representation of the mouth appearance. The inversion problem is treated as one of regression; a non-linear regressor using relevance vector machines is trained with a dataset of simultaneous images of a subject's face, acoustic features and positions of magnetic coils glued to the subjects's tongue. The results show the benefit of using both cues for inversion. We envisage the inversion method to be part of a pronunciation training system with articulatory feedback.

Ort, förlag, år, upplaga, sidor
BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2006. s. 2238-2241
Nyckelord [en]
audio-visual to articulatory inversion
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-38182ISI: 000269965901297Scopus ID: 2-s2.0-34548378893ISBN: 978-1-60423-449-7 (tryckt)OAI: oai:DiVA.org:kth-38182DiVA, id: diva2:436171
Konferens
9th International Conference on Spoken Language Processing/INTERSPEECH 2006, Pittsburgh
Anmärkning
QC 20110822Tillgänglig från: 2011-08-22 Skapad: 2011-08-22 Senast uppdaterad: 2018-01-12Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Scopus

Personposter BETA

Kjellström, HedvigBälter, Olle

Sök vidare i DiVA

Av författaren/redaktören
Kjellström, HedvigEngwall, OlovBälter, Olle
Av organisationen
Centrum för Talteknologi, CTTTal, musik och hörsel, TMHMänniska-datorinteraktion, MDI
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 198 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf