kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Harvesting targeted speech data from highly expressive found spontaneous speech by learning speaker representations
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Att skörda målinriktad taldata från mycket uttrycksfullt spontant tal genom inlärning av talarrepresentationer (Swedish)
Abstract [en]

This report aimed to tackle the challenge of extracting target speaker data from spontaneous single-channel multi-speaker audio data. The method focused on two core approaches - indirect and direct speaker embedding learning. Indirect learning was achieved by adapting an existing breath extraction model to the task of target speaker classification, byproduct of which were learned speaker embeddings. Direct approach, instead, focused on a contrastive loss siamese model with the objective of optimising distance between speaker embeddings. Models were trained on a small, highly class imbalanced, human annotated corpus containing target speaker and redundant speaker labels. Several approaches were presented for tackling data imbalance, including label reassignment, data removal and usage of class balanced loss functions. Both models were proof-of-concept validated using clean, class balanced subset of VoxCeleb corpus, and showed high accuracy and distinctly clustered speaker embeddings. False-positive-rate (FPR) analysis was then used to evaluate the models’ performance on target test corpus, were adapted breath detection model was able to achieve a set FPR benchmark, suggesting that it could be used for automatic target speaker audio harvesting. Contrastive loss model, however, suffered from insufficient training data and was unable to meet set benchmarks.

Abstract [sv]

Denna rapport ämnar att lösa utmaningen av att extrahera talardata av en konkret talare från spontan enkelkanalig, och flertalig ljuddata. Metoden fokuserade på två tillvägagångsätt: indirekt och direkt inbäddad talarinlärning. Indirekt inlärning uppnåddes genom att tillämpa en befintlig modell för andningsextraktion för att klassificera talaren, vilket även resulterade i inlärd talarinbäddning. Den direkt metoden fokuserade istället på en kontrastförlust-siamesemodell, med målet att optimisera avståndet mellan talarinbäddningar. Modellerna tränades på små, kraftigt klassobalanserade, mänskligt kommentarade korpus som innehöll markörer för både talaren och övriga talare. Flera tillvägagångsätt presenterades för att tackla dataobalans vilket inkluderade omplacering av markörer, databorttagning och användning av klassbalanserade förlustfunktioner. Både modellerna var koncepttest som validerades med en ren, klassbalanserad delmängd av VoxCeleb-korpuset, och visade hög träffsäkerhet och tydliga kluster med talarinbäddningar. False-positive-rate-analys (FPR) användes sedan för att utvärdera modellens prestanda på måltestkorpuset, där en anpassad andningsdetekteringsmodell kunde uppnå ett FPR-riktmärke, vilket tyder på att modellen kan användas för automatisk ljudinsamling av en talare.Kontrastförlustmodellen led av otillräcklig träningsdata och misslyckades att nå satta riktmärken.

Place, publisher, year, edition, pages
2024. , p. 28
Series
TRITA-EECS-EX ; 2024:264
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-350761OAI: oai:DiVA.org:kth-350761DiVA, id: diva2:1884874
Supervisors
Examiners
Available from: 2024-08-12 Created: 2024-07-18 Last updated: 2024-08-12Bibliographically approved

Open Access in DiVA

fulltext(1471 kB)84 downloads
File information
File name FULLTEXT01.pdfFile size 1471 kBChecksum SHA-512
1c062657668b35b8fb3212efa2a2ddd05d5c880706dabf1f0e0bbab42d08d032f7e38622bd300bfa6dac93ffbd3bd4933c9d42e2d4f4529a70ca159f4faf772b
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 84 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 195 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf