Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Machine Learning for Text-Independent Speaker Verification: How to Teach a Machine to RecognizeHuman Voices
KTH, School of Electrical Engineering (EES).
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The aim of speaker recognition and veri cation is to identify people's identity from the characteristics of their voices (voice biometrics). Traditionally this technology has been employed mostly for security or authentication purposes, identi cation of employees/customers and criminal investigations. During the last decade the increasing popularity of hands-free and voice-controlled systems and the massive growth of media content generated on the internet has increased the need for techniques to automatically and accurately analyse speech signals. Speaker recognition is thus becoming a fundamental block for the smart analysis of speech in video and audio content, along with other technologies like speech recognition and diarization. Examples of useful applications of these technologies are query-by-voice, automatic subtitling and automatic metadata generation for movies and television. In this thesis we evaluate di erent state-of-the-art techniques for text-independent speaker veri cation on a large database of read English speech (LibriSpeech ASR corpus). The di erent techniques are compared in terms of classi cation accuracy, scalability and robustness to noise. A classi cation approach based on discriminatively trained Arti cial Neural Networks (ANNs) is presented, showing superior classi cation performance to traditional generative models like Gaussian Mixture Models (GMMs) and Ivectors. The core contribution of the thesis is a novel hybrid generative/discriminative method, using ANNs and a GMM-Universal Background Model (UBM) to obtain state-of-the-art speaker recognition results. The advantage of the new system is the possibility of using ANNs while maintaining complete scalability: an arbitrary number of new speakers can be added to the system without the need of retraining the speaker models. At the same time the system achieves very good performance, with only 0.23% Equal Error Rate (EER) in veri cation mode and 99.6% classi cation accuracy on a dataset of 2483 speakers, both male and female.

Abstract [sv]

Syftet med talarigenkänning och verifiering är att identifiera människors identitet utifrån de egenskaper som karakteriserar deras röster (röstbiometri). Traditionellt har denna teknologi främst använts inom säkerhets och autentiseringsområdet för att identifiera anställda/kunder eller personer i brottsutredningar. Under det senaste decenniet har den successivt ökande populariteten för handsfree och röststyrda system och den massiva ökningen av medieinnehåll som genereras på Internet ökat behovet av tekniker för att automatiskt och noggrant analysera talsignaler.

Talarigenkänning är därmed på väg att bli en grundläggande teknologi för smart analys av tal i video och ljud, tillsammans med andra teknologier som taligenkänning och diarieföring. Exempel på användbara tillämpningar av dessa teknologier är röstbaserade användarinterface, automatisk textning och automatisk generering av metadata för film och TV.

I detta examensarbete utvärderar vi olika state-of-the-art tekniker för text oberoende talarverifiering på en stor databas av engelska ljudböcker (LibriSpeech ASR corpus). De olika teknikerna jämförs i termer av klassificeringsnoggrannhet, skalbarhet och robusthet för buller.

En klassificeringsmetod baserad på diskriminativt tränade Artificiella Neu-rala N¨atverk (ANN) presenteras. Metoden visar överlägsen klassificeringsprestanda över traditionella generativt tränade modeller som Gaussiska mixtur-modeller (GMMer) och i-vektorer.

Huvudbidraget i examensarbetet är en ny hybrid generativ/diskriminativ metod som använder en kombination av en ANN och en GMM-Universal bakgrundsmodell (UBM) för att uppnå state-of-the-art talarigenkänningsresultat. Fördelen med det nya systemet är möjligheten att använda ANN med bibehållen skalbarhet: ett godtyckligt antal nya talare kan adderas till systemet utan behov av omträning av talarmodellerna. Samtidigt uppnår systemet mycket bra prestanda, endast 0,23% Equal Error Rate (EER) i verifieringsläget och 99,6% klassificeringsnoggrannhet på ett dataset med 2483 talare, både män och kvinnor.

Place, publisher, year, edition, pages
2016. , 64 p.
Series
TRITA-EE, ISSN 1653-5146 ; 2016:151
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-193535OAI: oai:DiVA.org:kth-193535DiVA: diva2:1014991
Educational program
Master of Science in Engineering - Information and Communication Technology
Presentation
2016-08-15, Conference Room SIP,, Osquldas Vag 10, Floor 3, Stockholm, 10:00 (English)
Supervisors
Examiners
Available from: 2016-10-07 Created: 2016-10-03 Last updated: 2016-10-07Bibliographically approved

Open Access in DiVA

fulltext(1821 kB)120 downloads
File information
File name FULLTEXT01.pdfFile size 1821 kBChecksum SHA-512
b2cc8eb25ae9b7d15a6abc5daac0ab0297ede99a39e6c59fbbaed1b2314cf39bf871b97851cae1bc60730cdab7b89fbfdb1f2f36b0237b6f16e1ab6960bd84db
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering (EES)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 120 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 622 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf