Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Lip Synchronization: from Phone Lattice to PCA Eigen-projections using Neural Networks
KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT. KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation.
2008 (Engelska)Ingår i: INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2008, s. 2016-2019Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Lip synchronization is the process of generating natural lip movements from a speech signal. In this work we address the lip-sync problem using an automatic phone recognizer that generates a phone lattice carrying posterior probabilities. The acoustic feature vector contains the posterior probabilities of all the phones over a time window centered at the current time point. Hence this representation characterizes the phone recognition output including the confusion patterns caused by its limited accuracy. A 3D face model with varying texture is computed by analyzing a video recording of the speaker using a 3D morphable model. Training a neural network using 30 000 data vectors from an audiovisual recording in Dutch resulted in a very good simulation of the face on independent data sets of the same or of a different speaker.

Ort, förlag, år, upplaga, sidor
BAIXAS: ISCA-INST SPEECH COMMUNICATION ASSOC , 2008. s. 2016-2019
Nyckelord [en]
lip synchronization, speech recognition, phone lattice, 3D morphable models, principal component analysis, audio visual speech
Nationell ämneskategori
Data- och informationsvetenskap Jämförande språkvetenskap och allmän lingvistik
Identifikatorer
URN: urn:nbn:se:kth:diva-29854ISI: 000277026101077Scopus ID: 2-s2.0-84867204708ISBN: 978-1-61567-378-0 (tryckt)OAI: oai:DiVA.org:kth-29854DiVA, id: diva2:399745
Konferens
9th Annual Conference of the International-Speech-Communication-Association (INTERSPEECH 2008)
Anmärkning
QC 20110222Tillgänglig från: 2011-02-23 Skapad: 2011-02-17 Senast uppdaterad: 2018-01-12Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

ScopusISCA

Sök vidare i DiVA

Av författaren/redaktören
Al Moubayed, Samer
Av organisationen
Centrum för Talteknologi, CTTTal-kommunikation
Data- och informationsvetenskapJämförande språkvetenskap och allmän lingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 694 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf