Comparative Analysis of Predictive Models for Financed Emissions
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Jämförande analys av prediktiva modeller för finansierade utsläpp (Swedish)
Abstract [en]
Financial institutions have a great interest in creating predictive models for their lending and investment portfolios. Detecting outliers and conducting scenario analysis using predictive models not only improves their risk management but also helps them meet their goals and maintain a high regulatory standard. The dominant source of emissions for banks is indirect greenhouse gas emissions (Scope 3), which are mainly emissions related to financing and investment activities. Usually, direct emissions (Scope 1 and 2) represent only a fraction of their total emissions. Therefore, understanding and accurately predicting their Scope 3 emissions, particularly the financed emissions, is important for their climate strategies. The goal of this study is to explore different models to find which of the selected ones are most suitable to predict financed emissions, specifically focusing on the commercial real estate sector. Some degree of imputation was necessary to avoid removing large parts of the dataset while keeping relevant variables. The iterative imputer method, using the random forest regressor, outperformed the less complex k-nearest neighbour imputation in general. Six different mathematical models were explored: linear regression, ridge regression, bagged trees, random forest, Catboost, and finally, neural network. The study found that bagged trees and random forest performed the best when it came to mean absolute error (MAE), where CatBoost also had good performance. Regarding root mean squared error (RMSE) and R-squared, the neural network performed best. Furthermore, linear regression had worse performance, and the regularisation from the ridge did not noticeably improve the results. Finally, the best model varies depending on what you are after: accuracy or interpretability.
Abstract [sv]
Finansiella institutioner har ett stort intresse av att skapa prediktiva modeller för sin låne- och investeringsportfölj. Att identifiera extremvärden och göra scenarioanalyser med hjälp av prediktiva modeller förbättrar inte bara deras riskhantering utan hjälper dem också att nå sina mål och upprätthålla en hög regulatorisk standard. Majoriteten av bankers utsläpp sker genom de indirekta växthusgasutsläppen (Scope 3), framför allt utsläppen kopplade till finansierings- och investeringsverksamhet. Vanligtvis utgör de direkta utsläppen (Scope 1 och 2) endast en liten del av deras totala utsläpp. Därför är det viktigt att förstå och kunna estimera dessa Scope 3 utsläpp, eller så kallade “financed emissions”, för deras klimatstrategier. Målet med denna studie är att utforska olika regressionsmodeller för att hitta vilka av de valda modellerna som är bäst lämpade för att estimera finansierade utsläpp, där den kommersiella fastighetssektorn är i fokus. En viss grad av imputering var nödvändig för att undvika att ta bort stora delar av datan och samtidigt behålla relevanta variabler. Den iterativa imputionsmetoden, med random forest-regressorn, presterade generellt sett bättre mot den mindre komplexa imputationsmetoden, k-nearest neighbour. Sex olika matematiska modeller utforskades: linjär regression, ridge regression, bagged trees, random forest, Catboost och slutligen neural network. Studien kom fram till att bagged trees och random forest presterade bäst när det gällde mean absolute error (MAE), där CatBoost också visade bra resultat. När det gäller root mean squared error (RMSE) och R-squared, presterade neural network bäst. Samtidigt presterade linjär regression sämre, och regulariseringen från ridge regression förbättrade inte resultaten märkbart. Slutligen varierar den bästa modellen beroende på vad man är ute efter: noggrannhet eller tolkningsbarhet.
Place, publisher, year, edition, pages
2025. , p. 51
Series
TRITA-SCI-GRU ; 2025:079
Keywords [en]
Master Thesis, Financial Mathematics, Financed Emissions, Greenhouse Gas Emissions, Regression, Machine Learning, Linear Regression, Ridge Regression, Bagged Trees, Random Forest, Boosted Decision Tree, CatBoost, Neural Networks, Imputation, Real Estate
Keywords [sv]
Masteruppsats, Finansiell Matematik, Finansierade Utsläpp, Växthusgasutsläpp, Regression, Maskininlärning, Linjär regression, Ridge regression, Bagged trees, Random Forest, Boosted Decision Tree, CatBoost, Neural Network, Imputering, Fastigheter
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-364109OAI: oai:DiVA.org:kth-364109DiVA, id: diva2:1963945
External cooperation
Nordea
Subject / course
Financial Mathematics
Educational program
Master of Science - Industrial Engineering and Management
Supervisors
Examiners
2025-06-042025-06-042025-06-04Bibliographically approved