Comparative Analysis of Gradient Boosting Decision Trees and Deep Neural Networks for Tabular Data
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Jämförande analys av gradientförstärkande beslutsträd och djupa neurala nätverk för tabulär data (Swedish)
Abstract [en]
Decision-making and prediction using tabular data often rely on machine learning models, particularly Gradient Boosting Decision Trees (GBDTs) or Deep Neural Networks (DNNs). This study compares variants and combinations of these two approaches, focusing mainly on their predictive performance, interpretability, and computational efficiency. A financial lending dataset is used, where the target variable is the probability of default. Our results showed that GBDTs consistently outperformed DNNs in terms of ROC-AUC and AUPRC scores, while ensemble models that combined GBDTs and DNNs demonstrated marginal performance improvements. Additionally, GBDTs proved to be more computationally efficient, requiring less training and prediction time and having smaller model sizes. These findings align with current literature, confirming the superior performance of GBDTs on tabular data. We also explored the interpretability of the models and found that both GBDTs and DNNs provided comparable levels of interpretability. Possible future work includes expanding the analysis to multiple datasets from various domains and exploring more advanced DNN architectures and ensembling techniques.
Abstract [sv]
För att ta beslut och göra förutsägelser med hjälp av tabulär data används ofta maskininlärningsmodeller, mer specifikt används ofta Gradient Boosting Decision Trees (GBDTs) eller Deep Neural Networks (DNNs). Denna studie jämför varianter och kombinationer av dessa två typer av modeller, med fokus huvudsakligen på deras prediktiva prestanda, tolkningsbarhet och beräkningsmässiga effektivitet. En finansiell datamängd används, där målvariabeln är sannolikheten för utebliven återbetalning av ett lån. Våra resultat visade att GBDTs konsekvent överträffade DNNs när det gäller ROC-AUC- och AUPRC-poäng, medan ensemblemodeller som kombinerade GBDTs och DNNs visade marginella prestandaförbättringar. Dessutom visade sig GBDTs vara mer beräkningsmässigt effektiva, krävde mindre träning och förutsägningstid samt hade mindre modellstorlekar. Dessa fynd överensstämmer med nuvarande litteratur och bekräftar GBDTs dominans över DNNs på tabulär data. Gällande tolkningsbarhet fann vi att de båda typerna var på jämförbara nivåer. Möjligt framtida arbete inkluderar att utvidga analysen till flera datamängder från olika domäner och att utforska mer avancerade DNN-arkitekturer och ensembletekniker.
Place, publisher, year, edition, pages
2024. , p. 42
Series
TRITA-EECS-EX ; 2024:338
Keywords [en]
Tabular Data, Machine Learning, Deep Neural Networks, Gradient Boosting Decision Trees, Lending
Keywords [sv]
Tabulär Data, Maskininlärning, Djupa Neurala Nätverk, Gradientförstärkande Beslutsträd, Utlåning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351047OAI: oai:DiVA.org:kth-351047DiVA, id: diva2:1885958
Supervisors
Examiners
2024-10-182024-07-282024-10-18Bibliographically approved