Speech-Based Clinical Multi-Class Classification of Neurological Diseases
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Talbaserad klinisk flerklassklassificering av neurologiska sjukdomar (Swedish)
Abstract [en]
As the focus of this project’s research, the neurological diseases such as Amyotrophic lateral sclerosis (ALS), Parkinson’s disease (PD), Alzheimer’s disease (AD) etc. affect millions worldwide. Due to the high amount of manual resources needed for an in-depth analysis for the diagnose, diagnostic efficiency and healthcare resource issues need to be addressed. This project attempts to use deep learning to give initial diagnosis of neurological diseases based on speech disorders as data input and diagnostic basis. The target is to design and implement a novel multi-class classification model capable of distinguishing various neurological diseases using speech disorders’ features. This project aims to increase the diagnostic efficiency of the initial diagnostic phase and attempt to automate pathological acoustic diagnosis. This project uses multiple strategies in the data preparation, data processing, training and evaluation stages to optimize training results on model Convolutional Neural Networks (CNNs) and wav2vec2.0. Among them, the multi-source dataset method ensures the validity of training results and the robustness of the model, the speaker separation method ensures the validity of training results, and dataset balancing improves the overall performance of the model training results. This project has achieved a promising performance result for the model through multiple methods, opening a window of possibilities for future practical applications in the medical field. Other researchers could try using medically validated speech datasets, changing the classifier component, and replacing other dataset balancing methods to optimize model performance. The results of this project may be applied to the development of mobile applications for cell phones, which may be used in the future in the form of daily monitoring of potential patients to prompt them to visit the clinic, and may also be used as a paramedical tool for doctors. This would be a huge relief to the medical resources needed for the initial diagnosis of neurological diseases and might attract the attention of governments and healthcare organizations and generate public interest in primary prevention and detection.
Abstract [sv]
I fokus för detta projekts forskning står neurologiska sjukdomar som ALS, PD, AD etc. som drabbar miljontals människor över hela världen. På grund av den stora mängd manuella resurser som krävs för en djupgående analys för diagnosen måste frågor om diagnostisk effektivitet och vårdresurser hanteras [1]. Detta projekt försöker använda djupinlärning för att ge en första diagnos av neurologiska sjukdomar baserat på talstörningar som datainmatning och diagnostisk grund. Målet är att utforma och implementera en ny flerklassig klassificeringsmodell som kan skilja mellan olika neurologiska sjukdomar med hjälp av talstörningarnas egenskaper. Detta projekt syftar till att öka den diagnostiska effektiviteten i den inledande diagnostiska fasen och försöka automatisera patologisk akustisk diagnos. I det här projektet används flera strategier i dataförberedelse, databe- handling, utbildning och utvärdering för att optimera utbildningsresultaten för modellerna CNNs och Wav2vec2.0. Bland annat säkerställer metoden med dataset med flera källor utbildningsresultatens validitet och modellens robusthet, metoden med högtalarseparation säkerställer utbildningsresultatens validitet och balansering av dataset förbättrar modellens övergripande utbildningsresultat. Detta projekt har uppnått ett lovande resultat för modellen genom flera metoder, vilket öppnar ett fönster av möjligheter för framtida prak- tiska tillämpningar inom det medicinska området. Andra forskare kan försöka använda medicinskt validerade taldataset, ändra klassificerarkomponenten och ersätta andra metoder för balansering av dataset för att optimera modellens prestanda. Resultaten av detta projekt kan användas för att utveckla mobila applikationer för mobiltelefoner, som i framtiden kan användas för daglig övervakning av potentiella patienter för att uppmana dem att besöka kliniken, och kan också användas som ett paramedicinskt verktyg för läkare. Detta skulle innebära en enorm avlastning för de medicinska resurser som behövs för den första diagnosen av neurologiska sjukdomar och skulle kunna uppmärksammas av regeringar och sjukvårdsorganisationer och skapa ett allmänt intresse för primärprevention och upptäckt.
Place, publisher, year, edition, pages
2025. , p. 60
Series
TRITA-EECS-EX ; 2025:85
Keywords [en]
Neurological Diseases, Speech Disorder, Deep learning, CNN, Wav2vec2.0
Keywords [sv]
Neurologiska Sjukdomar, Talstörning, Djupinlärning, CNN, Wav2vec2.0
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362126OAI: oai:DiVA.org:kth-362126DiVA, id: diva2:1950578
Supervisors
Examiners
2025-04-242025-04-082025-04-24Bibliographically approved