Recent advancements in the field of machine learning applied to facial recognition have resulted in widespread adaptation of the technology. As the use of facial recognition algorithms has increased however, so has concerns regarding racial bias in these algorithms. This study examines if the racial distribution of the training data has an effect on the accuracy of the facial recognition algorithm ArcFace. This was examined by training the algorithm five times on two different training datasets; one balanced consisting of 50% African American identities and 50% Caucasian Latin identities, and one imbalanced consisting of 15% African American identities and 85% Caucasian Latin identities. The performance for each model was evaluated on three different test datasets using F1 score. Two-Sample Kolmogorov-Smirnov test (Two-Sample KS-test) was then applied to compare the models performances. If the Two-Sample KS-test showed an existing difference, Hedges G was used to determine the significance of the difference between the two samples. The results show that the composition of the training data does not affect the model’s accuracy when evaluating on data containing images from both ethnicities. However, when evaluating on a dataset only consisting of one ethnicity, training on an imbalanced dataset seemed to have a positive effect on the model’s accuracy for the overrepresented ethnicity.
Framsteg inom maskininlärning tillämpat på ansiktsigenkänning har lett till en omfattande användning av denna teknologi. I takt med att användningen av ansiktsigenkänningsalgoritmer har ökat har dock även bekymmer om rasfördomar i dessa algoritmer spridits. Denna studie undersöker om den etniska fördelningen av träningsdatat påverkar pålitligheten hos ansiktsigenkänningsalgoritmen ArcFace. Detta gjordes genom att träna algoritmen fem gånger på två olika träningsdataset; ett balanserat dataset bestående av 50% afroamerikanska identiteter och 50% kaukasiska latinska identiteter, och ett obalanserat dataset bestående av 15% afroamerikanska identiteter och 85% kaukasiska latinska identiteter. Prestandan för varje modell utvärderades på tre olika testdatamängder med hjälp av F1-poäng. Tvåprovskolmogorov-Smirnov-testet tillämpades sedan för att jämföra modellernas prestanda, och om en skillnad hittades användes Hedges G för att bestämma signifikansen av skillnaden mellan modellerna. Resultaten visar att sammansättningen av träningsdatan inte påverkar modellens noggrannhet när man utvärderar data som innehåller bilder från båda etniciteterna. När utvärderingen utfördes på en datamängd med endast en etnicitet, verkade däremot träning på en obalanserad datamängd ha en positiv effekt på modellens noggrannhet för den överrepresenterade etniciteten.