kth.sePublications KTH
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Deep Learning-baserat system för upptäckt av falska röster
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
2026 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Deep Learning-Based System for Voice Spoofing Detection (English)
Abstract [sv]

Sammanfattning

Röstbaserad autentisering används i allt större utsträckning inom finansiella system och andra säkerhetskritiska miljöer. Utvecklingen har lett till att systemen blivit mer sårbara för spoofing-attacker, särskilt sådana som bygger på syntetiskt eller manipulerat tal. Samtidigt som teknik för syntetiskt tal utvecklas, utgör attacker ett hot mot tillförlitligheten på automatiska talverifieringssystem (ASV).

Mot denna bakgrund undersöker denna studie hur effektivt olika djupinlärningsbaserade modeller kan användas för att upptäcka spoofing-attacker. Studien genomför en jämförande analys av fyra olika arkitekturer med hjälp av ASVspoof 2019 Logical Access-datasetet. De modeller som ingår i utvärderingen är ett VGG-inspirerat konvolutionellt neuralt nätverk (CNN), Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU) samt bidirektionell GRU (BiGRU). Modellerna valdes utifrån dektekteringsprestanda med hänsyn till beräkningskrav och praktisk användbarhet.  

För att bedöma modellernas prestanda används flera etablerade utvärderingsmått, däribland Equal Error Rate (EER), minimum normaliserad tandem Detection Cost Function (t-DCF), noggrannhet, precision, recall, F1-poäng och AUC. Confusion matrix analyseras också för att ge en mer detaljerad bild av modellernas felbeteende.

Resultaten visar att de rekurrenta arkitekturerna presterar bättre än den konvolutionella baslinjemodellen. BiGRU uppvisar bäst resultat, med de lägsta värdena för EER och t-DCF, samtidigt som den uppvisar hög noggrannhet och F1-poäng. Detta indikerar att modellen på ett effektivt sätt kan skilja mellan äkta och manipulerade röstprover och samtidigt upprätthålla en god balans mellan säkerhet och användbarhet. Även den CNN-baserade modellen uppvisar konkurrenskraftiga resultat, medan LSTM-modellen visar tecken på begränsad generaliseringsförmåga trots hög träningsnoggrannhet, vilket tyder på överanpassning.

Sammanfattningsvis visar studien att GRU-baserade arkitekturer, och i synnerhet BiGRU, är lämpad för robust och kostnadseffektiv spoofing-detektion i röstbaserade autentiseringssystem. De erbjuder balans mellan dektekteringsprestandan i relation till beräkningskraven, vilket gör dem effektiva för praktisk implementering.

Abstract [en]

Abstract

Voice-based authentication is increasingly used in financial systems and other security-critical environments. However, this development has made such systems more vulnerable to spoofing attacks, particularly those based on synthetic or manipulated speech. As speech synthesis technologies continue to advance, these attacks pose a significant threat to the reliability of automatic speaker verification (ASV) systems.

Against this background, this study investigates how effectively different deep learning–based models can be used to detect spoofing attacks. A comparative analysis is conducted using the ASVspoof 2019-LA-dataset. The evaluated models include a VGG-inspired Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), and Bidirectional GRU (BiGRU). The models were selected not only based on detection performance, but also with consideration of computational requirements and practical applicability.

To assess model performance, several established evaluation metrics are used, including Equal Error Rate (EER), minimum normalized tandem Detection Cost Function (t-DCF), accuracy, precision, recall, F1-score, and Area Under the Curve (AUC). Confusion matrix analysis is also performed to provide a more detailed understanding of the models’ error behavior.

Results show that recurrent architectures perform better than the convolutional baseline model. Particularly the BiGRU, achieved the strongest performance across evaluation metrics. These findings indicate that the model can effectively distinguish between genuine and spoofed speech samples while maintaining a good balance between security and usability. CNN-based models also demonstrate competitive performance, whereas the LSTM model shows signs of limited generalization despite high training accuracy, suggesting overfitting.

In conclusion, the study demonstrates that GRU-based architectures, and BiGRU in particular, are well suited for robust and cost-effective spoofing detection in voice-based authentication systems, offering a favorable trade-off between high detection performance and relatively low computational requirements.

Place, publisher, year, edition, pages
2026. , p. 76
Series
TRITA-CBH-GRU ; 140
Keywords [en]
ASVspoof 2019, Anti-Spoofing, BiGRU, Convolutional Neural Networks (CNN), Deep Learning, Equal Error Rate (EER), GRU, Model Evaluation, Recurrent Neural Networks, Speaker Verification, Spoof Detection, t-DCF, Voice Biometrics
Keywords [sv]
ASVspoof 2019, Anti-spoofing, BiGRU, Konvolutionella neurala nätverk (CNN), Deep Learning, Equal Error Rate (EER), GRU, Modellutvärdering, Recurrent Neural Networks (RNN), Talarverifiering, Detektion av röstspoofing, t-DCF, Röstbiometri
National Category
Artificial Intelligence Security, Privacy and Cryptography
Identifiers
URN: urn:nbn:se:kth:diva-382880OAI: oai:DiVA.org:kth-382880DiVA, id: diva2:2065258
Subject / course
Computer Engineering with Business Economics
Educational program
Bachelor of Science in Engineering - Engineering and Economics
Supervisors
Examiners
Available from: 2026-06-03 Created: 2026-06-03 Last updated: 2026-06-03Bibliographically approved

Open Access in DiVA

Deep Learning-baserat system för upptäckt av falska röster(2330 kB)32 downloads
File information
File name FULLTEXT01.pdfFile size 2330 kBChecksum SHA-512
6da0b58c0d37941333b1ad0bcbf8eaa9fc12135ecf24c7bfa236c891d4702ffbd0533d5d913c002720c27fc0e3f90a276d877390ea8247a9aadf69dac8d2e302
Type fulltextMimetype application/pdf

By organisation
Health Informatics and Logistics
Artificial IntelligenceSecurity, Privacy and Cryptography

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 197 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf