kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
The Impact of Racial Bias in Training Data on the ArcFace Facial Recognition Algorithm
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Påverkan av icke-representativ träningsdata på ansiktsigenkänningsalgoritmen ArcFace utifrån ett etnicitetsperspektiv (Swedish)
Abstract [en]

Recent advancements in the field of machine learning applied to facial recognition have resulted in widespread adaptation of the technology. As the use of facial recognition algorithms has increased however, so has concerns regarding racial bias in these algorithms. This study examines if the racial distribution of the training data has an effect on the accuracy of the facial recognition algorithm ArcFace. This was examined by training the algorithm five times on two different training datasets; one balanced consisting of 50% African American identities and 50% Caucasian Latin identities, and one imbalanced consisting of 15% African American identities and 85% Caucasian Latin identities. The performance for each model was evaluated on three different test datasets using F1 score. Two-Sample Kolmogorov-Smirnov test (Two-Sample KS-test) was then applied to compare the models performances. If the Two-Sample KS-test showed an existing difference, Hedges G was used to determine the significance of the difference between the two samples. The results show that the composition of the training data does not affect the model’s accuracy when evaluating on data containing images from both ethnicities. However, when evaluating on a dataset only consisting of one ethnicity, training on an imbalanced dataset seemed to have a positive effect on the model’s accuracy for the overrepresented ethnicity.

Abstract [sv]

Framsteg inom maskininlärning tillämpat på ansiktsigenkänning har lett till en omfattande användning av denna teknologi. I takt med att användningen av ansiktsigenkänningsalgoritmer har ökat har dock även bekymmer om rasfördomar i dessa algoritmer spridits. Denna studie undersöker om den etniska fördelningen av träningsdatat påverkar pålitligheten hos ansiktsigenkänningsalgoritmen ArcFace. Detta gjordes genom att träna algoritmen fem gånger på två olika träningsdataset; ett balanserat dataset bestående av 50% afroamerikanska identiteter och 50% kaukasiska latinska identiteter, och ett obalanserat dataset bestående av 15% afroamerikanska identiteter och 85% kaukasiska latinska identiteter. Prestandan för varje modell utvärderades på tre olika testdatamängder med hjälp av F1-poäng. Tvåprovskolmogorov-Smirnov-testet tillämpades sedan för att jämföra modellernas prestanda, och om en skillnad hittades användes Hedges G för att bestämma signifikansen av skillnaden mellan modellerna. Resultaten visar att sammansättningen av träningsdatan inte påverkar modellens noggrannhet när man utvärderar data som innehåller bilder från båda etniciteterna. När utvärderingen utfördes på en datamängd med endast en etnicitet, verkade däremot träning på en obalanserad datamängd ha en positiv effekt på modellens noggrannhet för den överrepresenterade etniciteten.

Place, publisher, year, edition, pages
2024. , p. 29
Series
TRITA-EECS-EX ; 2024:345
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351098OAI: oai:DiVA.org:kth-351098DiVA, id: diva2:1886187
Supervisors
Examiners
Available from: 2024-08-22 Created: 2024-07-30 Last updated: 2024-08-22Bibliographically approved

Open Access in DiVA

fulltext(1880 kB)180 downloads
File information
File name FULLTEXT01.pdfFile size 1880 kBChecksum SHA-512
0aa1814ba6dbbb7d4eafdf4091898b2172a3628ebdedab46fb69d828f13badfdff301ae69f6708da7930b403075de845cd05251b4550261b10461d4669028ce8
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 180 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 309 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf