kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Speech-Based Clinical Multi-Class Classification of Neurological Diseases
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Talbaserad klinisk flerklassklassificering av neurologiska sjukdomar (Swedish)
Abstract [en]

As the focus of this project’s research, the neurological diseases such as Amyotrophic lateral sclerosis (ALS), Parkinson’s disease (PD), Alzheimer’s disease (AD) etc. affect millions worldwide. Due to the high amount of manual resources needed for an in-depth analysis for the diagnose, diagnostic efficiency and healthcare resource issues need to be addressed. This project attempts to use deep learning to give initial diagnosis of neurological diseases based on speech disorders as data input and diagnostic basis. The target is to design and implement a novel multi-class classification model capable of distinguishing various neurological diseases using speech disorders’ features. This project aims to increase the diagnostic efficiency of the initial diagnostic phase and attempt to automate pathological acoustic diagnosis. This project uses multiple strategies in the data preparation, data processing, training and evaluation stages to optimize training results on model Convolutional Neural Networks (CNNs) and wav2vec2.0. Among them, the multi-source dataset method ensures the validity of training results and the robustness of the model, the speaker separation method ensures the validity of training results, and dataset balancing improves the overall performance of the model training results. This project has achieved a promising performance result for the model through multiple methods, opening a window of possibilities for future practical applications in the medical field. Other researchers could try using medically validated speech datasets, changing the classifier component, and replacing other dataset balancing methods to optimize model performance. The results of this project may be applied to the development of mobile applications for cell phones, which may be used in the future in the form of daily monitoring of potential patients to prompt them to visit the clinic, and may also be used as a paramedical tool for doctors. This would be a huge relief to the medical resources needed for the initial diagnosis of neurological diseases and might attract the attention of governments and healthcare organizations and generate public interest in primary prevention and detection.

Abstract [sv]

I fokus för detta projekts forskning står neurologiska sjukdomar som ALS, PD, AD etc. som drabbar miljontals människor över hela världen. På grund av den stora mängd manuella resurser som krävs för en djupgående analys för diagnosen måste frågor om diagnostisk effektivitet och vårdresurser hanteras [1]. Detta projekt försöker använda djupinlärning för att ge en första diagnos av neurologiska sjukdomar baserat på talstörningar som datainmatning och diagnostisk grund. Målet är att utforma och implementera en ny flerklassig klassificeringsmodell som kan skilja mellan olika neurologiska sjukdomar med hjälp av talstörningarnas egenskaper. Detta projekt syftar till att öka den diagnostiska effektiviteten i den inledande diagnostiska fasen och försöka automatisera patologisk akustisk diagnos. I det här projektet används flera strategier i dataförberedelse, databe- handling, utbildning och utvärdering för att optimera utbildningsresultaten för modellerna CNNs och Wav2vec2.0. Bland annat säkerställer metoden med dataset med flera källor utbildningsresultatens validitet och modellens robusthet, metoden med högtalarseparation säkerställer utbildningsresultatens validitet och balansering av dataset förbättrar modellens övergripande utbildningsresultat. Detta projekt har uppnått ett lovande resultat för modellen genom flera metoder, vilket öppnar ett fönster av möjligheter för framtida prak- tiska tillämpningar inom det medicinska området. Andra forskare kan försöka använda medicinskt validerade taldataset, ändra klassificerarkomponenten och ersätta andra metoder för balansering av dataset för att optimera modellens prestanda. Resultaten av detta projekt kan användas för att utveckla mobila applikationer för mobiltelefoner, som i framtiden kan användas för daglig övervakning av potentiella patienter för att uppmana dem att besöka kliniken, och kan också användas som ett paramedicinskt verktyg för läkare. Detta skulle innebära en enorm avlastning för de medicinska resurser som behövs för den första diagnosen av neurologiska sjukdomar och skulle kunna uppmärksammas av regeringar och sjukvårdsorganisationer och skapa ett allmänt intresse för primärprevention och upptäckt.

Place, publisher, year, edition, pages
2025. , p. 60
Series
TRITA-EECS-EX ; 2025:85
Keywords [en]
Neurological Diseases, Speech Disorder, Deep learning, CNN, Wav2vec2.0
Keywords [sv]
Neurologiska Sjukdomar, Talstörning, Djupinlärning, CNN, Wav2vec2.0
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362126OAI: oai:DiVA.org:kth-362126DiVA, id: diva2:1950578
Supervisors
Examiners
Available from: 2025-04-24 Created: 2025-04-08 Last updated: 2025-04-24Bibliographically approved

Open Access in DiVA

fulltext(4735 kB)28 downloads
File information
File name FULLTEXT02.pdfFile size 4735 kBChecksum SHA-512
5ae749ff0ff025edd79cbea2035791ea0b427dd5717696b3766e21fc04157f93b3eeeedee429ab6fde5bddb60a713fd0996fcde308c2a49a71627699bac58511
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 28 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 217 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf