Comparative Analysis of Machine Learning and Deep Learning Models for Card Fraud Detection
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Jämförande analys av maskininlärnings- och djupinlärningsmodeller för bedrägeriupptäckt i korttransaktioner (Swedish)
Abstract [en]
As the use of digital transaction grows, it brings with it an increased risk of fraud, affecting financial stability for both merchants and consumers. In 2021 alone, the global payment card fraud reached over $ 32 billion, with estimations indicating potential losses of nearly $ billion over the next decade. This study explores the effectiveness of different machine learning methods at detecting fraudulent transactions. Through a comparative analysis using a large data set from Kaggle.com, the study aims to enhance detection efficiency and accuracy, evaluating their performance using metrics such as accuracy, F1/score and ROC-AUC, The analysis not only focuses on technical evaluation of model effectiveness, but also considers how this aligns with real-world business goals and the bigger social and economic picture. Its about finding ways to use technology for good, making sure financial security is available to all. Being the base model, logistic regression (LR) got the lowest performance with 0.83 AUC-value compared to Extreme Gradient Boost (XGB) and Dense Neural Network (DNN) which got 0.93 and 0.84 AUC-value respectively. Same order were conducted for the F1-score with LR achieving a F1-score of 0.34, the XGB model 0.49 and the DNN model 0.38. The F1-score is particularly interesting where it considers coverage of both classes, which in broader terms means that the model considers both that valid transactions are allowed and that fraudulent transactions are prevented. The study determined that the XGBoost model exhibited superior performance among the various models tested. However, it’s important for businesses to consider their operational constraints, particularly in terms of computing resources and budget allocations for cloud services or data storage. For organizations facing limitations in these areas, LightGBM presents an optimal choice. This model operates significantly faster than XGBoost and, while it offers a marginally lower performance, it still maintains a high level of accuracy. LightGBM’s efficiency in handling large datasets with reduced computational demand makes it an ideal solution for businesses aiming to balance performance with cost-effectiveness.
Abstract [sv]
I takt med att användningen av digitala transaktioner ökar, medför det även en ökad risk för bedrägerier, vilket påverkar den finansiella stabiliteten för både företag och konsumenter. Under 2021 uppgick det globala bedrägeriet med betalkort till över 32 miljarder dollar, och uppskattningar visar på potentiella förluster på nästan en miljard dollar under det kommande decenniet. Denna studie utforskar effektiviteten av olika maskininlärningsmetoder för att upptäcka bedrägliga transaktioner. Genom en jämförande analys med en stor datamängd från Kaggle.com, syftar studien till att förbättra effektiviteten och noggrannheten i upptäckten, där prestanda utvärderas med hjälp av måttvärden som noggrannhet, F1-poäng och ROC-AUC. Analysen fokuserar inte bara på teknisk utvärdering av modellernas effektivitet utan beaktar även hur detta samspelar med verkliga affärsmål och större sociala och ekonomiska sammanhang. Det handlar om att hitta sätt att använda teknik för det gemensamma goda och att säkerställa att finansiell säkerhet är tillgänglig för alla. Som basmodell hade logistisk regression (LR) den lägsta prestandan med ett AUC-värde på 0,85, jämfört med Extreme Gradient Boost (XGB) och Dense Neural Network (DNN), som fick 0,93 och 0,84 i AUC-värde respektive. Samma ordning genomfördes för F1-poängen där LR uppnådde en F1-poäng på 0,34, XGB-modellen 0,49 och DNN-modellen 0,38. F1-poängen är särskilt intressant eftersom den tar hänsyn till båda klasserna, vilket i ett bredare perspektiv innebär att modellen både tillåter giltiga transaktioner och förhindrar bedrägliga transaktioner. Studien fastställde att XGBoost-modellen uppvisade överlägsen prestanda bland de olika testade modellerna. Det är dock viktigt för företag att beakta sina operativa begränsningar, särskilt när det gäller datorresurser och budgetallokeringar för molntjänster eller datalagring. För organisationer som står inför begränsningar på dessa områden presenterar LightGBM ett optimalt val. Denna modell fungerar betydligt snabbare än XGBoost och, även om den erbjuder något lägre prestanda, bibehåller den fortfarande en hög nivå av noggrannhet. LightGBM effektivitet vid hantering av stora datamängder med minskad datorkraft gör den till en idealisk lösning för företag som strävar efter att balansera prestanda med kostnadseffektivitet.
Place, publisher, year, edition, pages
2024. , p. 11
Series
TRITA-EECS-EX ; 2024:273
Keywords [en]
Card Fraud Detection, Machine Learning, Deep Learning, Feature Engineering, Financial Security, Sustainable Development Goals, Data Imbalance, Fraud Analytics, Predictive Modeling.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-350772OAI: oai:DiVA.org:kth-350772DiVA, id: diva2:1884902
Supervisors
Examiners
2024-08-132024-07-182024-08-13Bibliographically approved