ABSTRACTThis paper describes a first attempt at synthesis and evaluation of expressive visualarticulation using an MPEG-4 based virtual talking head. The synthesis is data-driven,trained on a corpus of emotional speech recorded using optical motion capture. Eachemotion is modelled separately using principal component analysis and a parametriccoarticulation model.In order to evaluate the expressivity of the data driven synthesis two tests wereconducted. Our talking head was used in interactions with a human being in a givenrealistic usage context.The interactions were presented to external observers that were asked to judge theemotion of the talking head. The participants in the experiment could only hear the voice ofthe user, which was a pre-recorded female voice, and see and hear the talking head. Theresults of the evaluation, even if constrained by the results of the implementation, clearlyshow that the visual expression plays a relevant role in the recognition of emotions.
Una delle piu’ recenti sfide nell´ambito dello sviluppo di sistemi automatici per lariproduzione di parlato audio-visivo è quella di riuscire a sviluppare un modello per laproduzione di parlato espressivo bi-modale. In questa comunicazione verranno presentati irisultati del primo tentativo di far produrre ad una testa parlante svedese una sintesi audiovisiva di parlato espressivo e si discuterá della messa a punto e dei risultati di due testpercettivi condotti allo scopo di valutare l´espressivitá di questa testa parlante, inserita in uncontesto simulato di interazione uomo-macchina.