Advancing Speech Emotion Recognition: A Comparative Analysis of Fine-Tuning HuBERT and Wav2Vec 2.0 Models
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Framsteg inom känsloigenkänning av tal : En jämförande analys av finjustering av HuBERT och Wav2vec 2.0 modeller (Swedish)
Abstract [en]
Speech Emotion Recognition (SER) stands at the forefront of advancing human-computer interaction (HCI) by enabling machines to interpret human emotions from speech, thereby enhancing the intuitiveness of interfaces in diverse applications. Recent developments in self-supervised learning have significantly contributed to the field, particularly through the utilization of large, unlabeled datasets which aid in overcoming the challenges posed by the limited size and diversity of traditional SER datasets. This study explores the efficacy of two leading self-supervised learning models, Wav2Vec 2.0 and HuBERT, developed by Meta AI, in an end-to-end SER system designed to answer the research question: How do the Wav2Vec 2.0 and HuBERT models compare in terms of accuracy in recognizing emotions from speech? Our novel modular end-to-end SER system leverages an Upstream + Downstream architecture to utilize the strengths of both models in processing emotional cues from speech. The comparative analysis reveals that while both models exhibit high accuracy, HuBERT demonstrates slightly better generalization across various emotions, with an overall accuracy of 0.91 compared to 0.89 for Wav2Vec 2.0. These findings suggest that the HuBERT architecture may be superior for SER tasks. However, it remains challenging to conclude whether it is the architecture itself or the specific conditions under which each model was pretrained that led to these results. The distinct different pretraining environments - HuBERT being trained on English and Wav2Vec 2.0 on multiple languages could significantly influence their performance in an SER task based on a English-centric dataset. Thus, future research should focus on separating the impacts of architecture and pretraining through controlled studies, where both models are pretrained under the same conditions and evaluated across varied linguistic settings.
Abstract [sv]
Speech Emotion Recognition (SER) står i framkant för att avancera human-computer interaction (HCI) genom att möjliggöra för datorer att tolka mänskliga känslor från tal, vilket förhöjer intuitiviteten i gränssnitt i olika applikationer. Nyliga utvecklingar inom self-supervised learning har bidragit avsevärt till fältet, särskilt genom användning av stora, omärkta datamängder som hjälper till att övervinna de utmaningar som begränsad storlek och mångfald i traditionella SER-dataset. Denna studie utforskar effektiviteten hos två ledande self-supervised learning modeller, Wav2Vec 2.0 och HuBERT, utvecklade av Meta AI, i ett end-to-end SER-system designat för att svara på forskningsfrågan: Hur jämför sig Wav2Vec 2.0 och HuBERT-modellerna när det gäller noggrannhet i att känna igen känslor från tal? Vårt nyskapande modulära end-to-end SER-system utnyttjar en Upstream + Downstream arkitektur för att dra nytta av styrkorna hos båda modellerna i bearbetningen av emotionella signaler från tal. Den jämförande analysen visar att även om båda modellerna uppvisar hög noggrannhet, demonstrerar HuBERT något bättre generalisering över olika känslor, med en total noggrannhet på 0,91 jämfört med 0,89 för Wav2Vec 2.0. Detta resultat tyder på att HuBERT-arkitekturen kan vara mer lämpad för SER-uppgifter. Det är dock svårt att dra slutsatsen om det är själva arkitekturen eller de specifika förhållandena under vilka varje modell förtränades som ledde till resultatet. De distinkta olika förträningsmiljöerna - HuBERT tränades på engelska och Wav2Vec 2.0 på flera språk - kan avsevärt påverka deras prestanda i en SER-uppgift baserad på ett engelskcentrerat dataset. Därför bör framtida forskning fokusera på att separera effekterna av arkitektur och förträning genom kontrollerade studier, där båda modellerna förtränas under samma förhållanden och utvärderas över varierade språkinställningar.
Place, publisher, year, edition, pages
2024. , p. 41
Series
TRITA-EECS-EX ; 2024:359
Keywords [en]
Speech Emotion Recognition (SER), Human-Computer Interaction (HCI), Self-Supervised Learning, Wav2Vec 2.0, HuBERT, Fine-Tuning, Transformers
Keywords [sv]
Känsloigenkänning av tal, Människa-datorinteraktion, Självövervakad Inlärning, Wav2Vec 2.0, HuBERT, Finjustering, Transformers
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351113OAI: oai:DiVA.org:kth-351113DiVA, id: diva2:1886207
Supervisors
Examiners
2024-08-232024-07-302024-08-23Bibliographically approved