Prediction of Short-term Default Probability of Credit Card Invoices Using Behavioural Data
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Prediktion av kortsiktig fallissemang hos kreditkortsfakturor med beteendedata (Swedish)
Abstract [en]
Probability of Default (PD) is a standard metric to model and monitor credit risk, a major risk facing financial institutions. Traditional PD models are used to forecast risk levels in the long-term, while short-term PD predictions are rarer, but they can support management decisions on an operational level. This thesis investigates the potential usage of short-term PD for credit card invoices within the invoice-to-cash process involving cash-collection activities, such as reminders and calls to customers. A model of this sort enables customized cash-collection efforts that are adapted to different credit card holders. Specifically, the main objectives of this thesis are to examine the usability of machine learning techniques in predicting the short-term default probability of credit card invoices and to investigate what features of credit card holders are important for default prediction.
The data set was collected from SEB Kort Bank AB, a payment card company operating in the Nordics, and it consists of overdue credit card invoices with belonging customer behavioural data. Customer behavioural data includes historical purchase patterns, customer information and event variables etc. The data is severely imbalanced with much fewer default invoices than non-default invoices. The features were selected using filter methods and correlation analysis. Several machine learning algorithms, including logistic regression, decision trees, random forest, CatBoost and XGBoost, were tested along with various resampling techniques, such as undersampling and SMOTE to treat class imbalances.
The results were primarily evaluated using Precision-Recall AUC and F-score. The two best-performing models had a Precision-Recall AUC and an F-score of 0.304 and 0.332, respectively. The ROC-AUC was roughly 0.89 for both models. Both models were trained using CatBoost. The results obtained suggest a fair performance for the default class (but superior to a baseline model) and a high performance for the non-default class. Moreover, it was shown that the cut-off probability threshold is a key aspect of classifying an invoice as default or non-default and should be adjusted after preference based on a precision-recall trade-off. Furthermore, feature importance was evaluated using two metrics, i.e, how much on average a prediction changes when the feature changes, and how much the loss value changes when the feature is included or excluded. The main finding in terms of feature importance is that event variables are not critical. The observed important predictive features include credit card balances, card activities, credit utilization and the number of historical invoice payments. Further research is recommended to draw definite conclusions in this regard.
Abstract [sv]
Probability of Default (PD) eller sannolikheten för fallissemang är ett standardmått för att modellera och övervaka kreditrisk, en väsentlig risk som finansiella institutioner står inför. Traditionella PD-modeller används för att prognostisera risknivåer på lång sikt. Prognostisering av PD på kortsikt är mer sällsynt men kan användas till att stödja ledningsbeslut på operativ nivå. Denna avhandling undersöker den potentiella användningen av kortsiktig PD för kreditskortsfakturor inom processen gällande indrivningen av likvida medel för kreditkortsfakturor, såsom påminnelser och samtal till kunder. En modell av detta slag möjliggör skräddarsydda processer som är anpassade till olika kreditkortsinnehavare. Syftet med denna avhandling att undersöka användbarheten av olika maskininlärningsalgoritmer för att förutspå kortsiktig PD för kreditkortsfakturor och att undersöka vilka variabler hos kreditkortsinnehavare som är viktiga.
Datan har samlats in från SEB Kort Bank AB, ett betalkorts företag med verksamhet i Norden, och består av förfallna kreditkortsfakturor med tillhörande kundbeteendedata. Kundbeteendedatan inkluderar historiska köpmönster, kundinformation och händelsevariabler etc. Datat är kraftigt obalanserat där antalet fakturor som går till fallissemang är mycket färre än fakturor som betalas efter förfallodatumet. Variablerna valdes ut genom filtermetoder och korrelationsanalyser. Flera maskininlärningsalgoritmer, inklusive logistisk regression, beslutsträd, random forest, CatBoost och XGBoost, testades tillsammans med olika resamplingtekniker, såsom undersampling och SMOTE för att hantera de obalanserade klasserna.
Resultaten utvärderades i första hand med Precision-Recall AUC och F-score. De två modeller som presterade bäst tränades med CatBoost och hade en Precision-Recall AUC samt en F-score på 0,304 respektive 0,332. ROC-AUC var ungefär 0,89 för båda modellerna. De erhållna resultaten tyder på en acceptabel prestanda för fallissemangklassen (men överlägsen en basmodell) och en hög prestanda för icke-fallissemangklassen. Fortsättningsvis visades det att tröskelvärdet som avgör om en faktura klassificeras som fallissemang eller ej är viktig och bör justeras efter preferens baserat på en avvägning mellan precision och recall. Variablernas relevans utvärderades med två mätvärden: hur mycket i genomsnitt en prognostisering ändras när variabeln ändras, samt hur mycket förlustfunktionen ändras när variabeln inkluderas eller exkluderas. Huvudslutsatsen gällande variablernas relevans är att händelsevariabler inte är kritiska. De variabler som var betydelsefulla inkluderar kreditkortssaldon, kortaktiviteter och antalet historiska fakturabetalningar. Variationen på variablernas relevans var dock hög och därmed rekommenderas ytterligare forskning för att dra säkra slutsatser i detta avseende.
Place, publisher, year, edition, pages
2022. , p. 86
Series
TRITA-SCI-GRU ; 2022:333
Keywords [en]
Probability of Default, Credit Risk, Short-term Default Prediction, Machine Learning, Gradient Boosting, Thresholding
Keywords [sv]
Sannolikheten för Fallissemang, Kreditrisk, Kortsiktig Fallissemang Prediktion, Maskininlärning, Gradientförstärkning, Tröskling
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-323868OAI: oai:DiVA.org:kth-323868DiVA, id: diva2:1737000
External cooperation
SEB Kort Bank AB
Subject / course
Mathematics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
2023-02-222023-02-152023-02-22Bibliographically approved