kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Gender Bias in Machine Learning: The Effect of Using Female Versus Male Audio When Classifying Emotions in Speech Using Machine Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Genusbias i maskininlärning : Effekten av att använda kvinnligt kontra manligt ljud vid klassificering av känslor i tal med hjälp av maskininlärning (Swedish)
Abstract [en]

To avoid discrimination between the genders and to improve the performance of machine learning, it is important to evaluate how different test data can impact how accurate machine learning models can be. This study investigates if the distribution between women and men in the training data affects how accurately different machine learning models can classify emotions used in the speaker’s tone of voice. The data used in the study is the RAVDESS dataset, where a part of the data was used for the training and the rest was used for testing the accuracy of the machine learning models. When analyzing the results, it was found that when comparing the results of using 75 % female and 25 % male, 25 % female and 75 % male or equal parts male and female training data, the highest accuracy of the majority of the models was when using equal parts male and female test data. Comparing the result of using 75 % female and 25 % male versus 25 % female and 75 % male, the accuracy was slightly higher when using a majority of the data being male. However, the difference was so small that no conclusion could be drawn more than that using equal parts training data from both genders is preferable.

Abstract [sv]

För att undvika diskriminering mellan könen och för att förbättra prestandan för maskininlärning är det viktigt att utvärdera hur olika testdata kan påverka exaktheten hos maskininlärningsmodeller. Den här studien undersöker huruvida fördelningen mellan kvinnor och män i träningsdatan påverkar hur korrekt olika maskininlärningsmodeller kan klassificera känslor som används i talarens tonfall. Data som används i studien är datasetet RAVDESS, där en del av datan användes för att träning av maskininlärningsmodellerna och resten användes för att testa maskininlärningsmodellernas korrekhet. När resultaten mellan att använda 75 % kvinnor och 25 % män, 25 % kvinnor och 75 % män eller lika delar manliga och kvinnliga träningsdata analyserades fann man att den högsta noggrannheten för majoriteten av modellerna var med lika delar manliga och kvinnliga testdata. Jämför man resultatet av att använda 75 % kvinnor och 25 % män mot 25 % kvinnor och 75 % män, var korrektheten något högre när man använde en majoritet av manliga data. Skillnaden var dock så liten att ingen slutsats kunde dras mer än att användning av lika delar träningsdata från båda könen är att föredra.

Place, publisher, year, edition, pages
2023. , p. 34
Series
TRITA-EECS-EX ; 2023:338
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-331010OAI: oai:DiVA.org:kth-331010DiVA, id: diva2:1779809
Supervisors
Examiners
Available from: 2023-08-01 Created: 2023-07-04 Last updated: 2023-08-01Bibliographically approved

Open Access in DiVA

fulltext(1664 kB)463 downloads
File information
File name FULLTEXT01.pdfFile size 1664 kBChecksum SHA-512
6c738389503e9e4958a2633b84f107d3c4c1ee54872cdc57411f1adb4a7c2948f0eba7dd855c4b62df66942419cd62ae1cfd5512637b6862542c74f74cb56b02
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 464 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 943 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf