Speaker diarization in challenging environments using deep networks: An evaluation of a state-of-the-art system
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Talardiarisering i utmanade miljöer med djupa nätverk : En utvärdering av ett toppmodernt system (Swedish)
Abstract [en]
Speaker diarization is the task of determining 'who spoke when' in an audio segment. Since the breakthrough of deep learning, speech technology has experienced a huge improvement in a wide range of metrics and fields, and speaker diarization is no different. This thesis aims to evaluate how a state of the art speaker diarization system, pyannote, performs when applied to more difficult acoustic environments, and to investigate how that performance can be improved, as well as discuss what acoustic environments are difficult to diarize. Pyannote initially struggled to diarize audio with a lot of reverberations, and audio where the sound quality was considerably lower, such as a phone call. By utilizing fine-tuning techniques and a technique for augmenting the training data, the performance was greatly improved for the most difficult environments, and remained fairly static for the easier ones, implying that pyannote is robust and able to adapt to significant variations in the audio signal.
Abstract [sv]
Talardiarisering innebär att bestämma vem som talade när i en dialog, och ofta används det för mötestranskribering eller conversational AI. Sedan djupinlärning fick sitt genomslag har systemen för talteknologi genomgått enorma lyft, med förbättringar inom alla fält, inklusive talardiarisering. I det här examensarbetet undersöks hur väl ett toppmodernt talardiariseringssystem, pyannote, fungerar när det appliceras på mer utmanande ljudmiljöer, såsom bakgrundsljud eller lägre ljudkvalité. Resultaten visar att de svåraste miljöerna att diarisera är de som innehåller annat tal, eko eller telefonsamtal. Pyannote förbättras sedan genom fine-tuning och med en strategi för att designa träningsdatan, och det visar sig att pyannote är väldigt flexibel och klarar att anpassa sig till de svårare ljudmiljöerna, givet att man kan göra en tillräcklig approximation av sin måldata i träningsdatan.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2023. , p. 47
Series
TRITA-EECS-EX ; 2023:589
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-335218OAI: oai:DiVA.org:kth-335218DiVA, id: diva2:1793708
External cooperation
Säkerhetspolisen
Subject / course
Computer Science
Supervisors
Examiners
2023-09-142023-09-012023-09-14Bibliographically approved