Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Towards Speaker Detectionusing FaceAPI Facial Movementsin Human-Machine Multiparty Dialogue
KTH, School of Computer Science and Communication (CSC).
2013 (English)Independent thesis Basic level (degree of Bachelor), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

In multiparty multimodal dialogue setup, where the robot is set to

interact with multiple people, a main requirement for the robot is to recognize

the user speaking to it. This would allow the robot to pay attention

(visually) to the person the robot is listening to (for example looking by the

gaze and head pose to the speaker), and to organize the dialogue structure

with multiple people. Knowing the speaker from a set of persons in the

field-of-view of the robot is a research problem that is usually addressed

by analyzing the facial dynamics of persons (the person that is moving

his lips and looking towards the robot is probably the person speaking

to the robot).This thesis investigates the use of lip and head movements

for the purpose of speaker and speech/silence detection in the context of

human-machine multiparty dialogue. The use of speaker and voice activity

detection systems in human-machine multiparty dialogue is to help

the machine in detecting

who and when someone is speaking out of a

set of persons in the field-of-view of the camera. To begin with, a video of

four speakers (S1, S2, S3 and S4) speaking in a task free dialogue with a

fifth speaker (S5) through video conferencing is audio-visually recorded.

After that each speaker present in the video is annotated with segments

of speech, silence, smile and laughter. Then the real-time FaceAPI face

tracking commercial software is applied to each of the four speakers in

the video to track the facial markers such as head and lip movements.

At the end, three classification techniques namely Mahalanobis distance,

naïve Bayes classifier and neural network classifier are applied to facial

data (lip and head movements) to detect speech/silence and speaker.

In this thesis, three types of training methods are used to estimate

the training models of speech/silence for every speaker. The first one

is speaker dependent method, in which the training model contains the

facial data of testing person. The second one is speaker independent

method, where the training model does not contain the facial data of

testing person. It means that if the test person is S1 then the training

model may contain the facial data of S2, S3 or S4. The third one is hybrid

method, where the training model is estimated using the facial data of all

the speakers and testing is performed on one of the speaker.

The results of speaker dependent and hybrid methods show that the

neural network classifier provides the best results. In the speaker dependent

method, the accuracies of neural network classifier for speaker

and speech/silence detection are 97.43% and 98.73% respectively. However,

in the hybrid method, the accuracy of neural network classifier for

speech/silence detection is 96.22%. The results of speaker independent

method shows that the naïve Bayes classifier provides the best results

with an optimal accuracy of 67.57% for speech/silence detection.

Abstract [sv]

I fleraparter med fleramodala dialoginställningar, där roboten är inställd

på att interagera med flera personer. Det är en viktig förutsättning

för roboten att känna igen att användaren talar till den. Detta

skulle göra det möjligt för roboten att uppmärksamma (visuellt) den person

roboten lyssnar till (till exempel genom att titta i blicken och på huvudet

för att känna igen talaren) och att organisera dialogens struktur

med flera personer. Talaren från en upp sättning av personer i roboten

synfält är ett forskningsproblem som vanligtvis riktar sig till att analysera

dynamiken i ansiktsuttryck för personer (den person som rör på sina

läppar och riktar blicken mot roboten är förmodligen den person som talar

till roboten). Denna avhandling undersöker användningen av läpp

och huvudrörelser i syfte av att upptäcka högtalare och tal/tystnad i samband

med människa-maskin flerpartisystem dialog. Användningen av

högtalare och röstaktivitetsdetekteringssystem i människa-maskin flerpartisystem

dialog är att hjälpa maskinen att upptäcka vem och när någon

talar i kamerans synfält. Till att börja med, en video av fyra högtalare

(S1, S2, S3 och S4) talar i en uppgift utan dialog med en femte

högtalare (S5) genom videokonferenser blir ljud-visuellt inspelat. Sedan

tillämpas realtid FaceAPI tracking kommersiell programvara på vardera

fyra högtalarna i videon, för att spåra ansiktets markörer som huvud-och

läpprörelser. I slutet finns tre klassificeringstekniker nämligen Mahalanobis

distans, naiva Bayes klassificeraren och neuralanätverk klassificerare,

som tillämpas på ansiktet (läpp och huvudrörelser) för att upptäcka

tal/tystnad och talare.

I denna avhandling har tre typer av träningsmetoder använts för att

uppskatta utbildningsmodellerna för tal/tystnad för varje talare. Den

första är en talarberoende metod, där utbildningsmodellen innehåller

uppgifter om ansiktsdrag från testpersonen. Den andra är en talaroberoende

metod, där träningsmodellen inte innehåller ansiktsdrag från testpersonen.

Det innebär att om testpersonen är S1 kan utbildningsmodellen innehålla

data om ansiktsdrag från S2, S3 eller S4. Den tredje är en hybrid

metod, där utbildningsmodellen beräknas utifrån data från alla talares

ansiktsdrag men tester utförs på en av talarna.

Resultaten av talarberoende och hybridmetoderna visar att den neurala

nätverksklassificeraren ger bästa resultat. Utifrån data från alla

talares ansiktsdrag är, noggrannheten på neurala nätverk klassificerare

för talare och tal/tystnad upptäckt är 97,43% och 98,73% respektive. I

hybridmetoden, är däremot noggrannheten hos neurala nätverksklassificeraren

för tal/tystnad detektering 96,22%. Resultaten av talaroberoende

metod visar att den naïve Bayes klassificerare ger de bästa resultaten

med en optimal noggrannhet på 67,57% för tal/tystnad detektering.

Place, publisher, year, edition, pages
2013.
Series
Trita-CSC-E, ISSN 1653-5715 ; 13:108
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-138001OAI: oai:DiVA.org:kth-138001DiVA: diva2:680175
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2013-12-17 Created: 2013-12-17 Last updated: 2013-12-17Bibliographically approved

Open Access in DiVA

Towards Speaker Detection using FaceAPI Facial Movementsin Human-Machine Multiparty Dialogue(4075 kB)101 downloads
File information
File name FULLTEXT01.pdfFile size 4075 kBChecksum SHA-512
8dbd934cdf389eb78fe1430027b6578170405fce0ba8a6a278fd0f34510a73c6d501814f33c625df13ffe902be107090705cb503b5e1e33b2ebe73b9a16ef261
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 101 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 78 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf