Harvesting targeted speech data from highly expressive found spontaneous speech by learning speaker representations
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Att skörda målinriktad taldata från mycket uttrycksfullt spontant tal genom inlärning av talarrepresentationer (Swedish)
Abstract [en]
This report aimed to tackle the challenge of extracting target speaker data from spontaneous single-channel multi-speaker audio data. The method focused on two core approaches - indirect and direct speaker embedding learning. Indirect learning was achieved by adapting an existing breath extraction model to the task of target speaker classification, byproduct of which were learned speaker embeddings. Direct approach, instead, focused on a contrastive loss siamese model with the objective of optimising distance between speaker embeddings. Models were trained on a small, highly class imbalanced, human annotated corpus containing target speaker and redundant speaker labels. Several approaches were presented for tackling data imbalance, including label reassignment, data removal and usage of class balanced loss functions. Both models were proof-of-concept validated using clean, class balanced subset of VoxCeleb corpus, and showed high accuracy and distinctly clustered speaker embeddings. False-positive-rate (FPR) analysis was then used to evaluate the models’ performance on target test corpus, were adapted breath detection model was able to achieve a set FPR benchmark, suggesting that it could be used for automatic target speaker audio harvesting. Contrastive loss model, however, suffered from insufficient training data and was unable to meet set benchmarks.
Abstract [sv]
Denna rapport ämnar att lösa utmaningen av att extrahera talardata av en konkret talare från spontan enkelkanalig, och flertalig ljuddata. Metoden fokuserade på två tillvägagångsätt: indirekt och direkt inbäddad talarinlärning. Indirekt inlärning uppnåddes genom att tillämpa en befintlig modell för andningsextraktion för att klassificera talaren, vilket även resulterade i inlärd talarinbäddning. Den direkt metoden fokuserade istället på en kontrastförlust-siamesemodell, med målet att optimisera avståndet mellan talarinbäddningar. Modellerna tränades på små, kraftigt klassobalanserade, mänskligt kommentarade korpus som innehöll markörer för både talaren och övriga talare. Flera tillvägagångsätt presenterades för att tackla dataobalans vilket inkluderade omplacering av markörer, databorttagning och användning av klassbalanserade förlustfunktioner. Både modellerna var koncepttest som validerades med en ren, klassbalanserad delmängd av VoxCeleb-korpuset, och visade hög träffsäkerhet och tydliga kluster med talarinbäddningar. False-positive-rate-analys (FPR) användes sedan för att utvärdera modellens prestanda på måltestkorpuset, där en anpassad andningsdetekteringsmodell kunde uppnå ett FPR-riktmärke, vilket tyder på att modellen kan användas för automatisk ljudinsamling av en talare.Kontrastförlustmodellen led av otillräcklig träningsdata och misslyckades att nå satta riktmärken.
Place, publisher, year, edition, pages
2024. , p. 28
Series
TRITA-EECS-EX ; 2024:264
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-350761OAI: oai:DiVA.org:kth-350761DiVA, id: diva2:1884874
Supervisors
Examiners
2024-08-122024-07-182024-08-12Bibliographically approved