kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Comparative Analysis of Gradient Boosting Decision Trees and Deep Neural Networks for Tabular Data
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Jämförande analys av gradientförstärkande beslutsträd och djupa neurala nätverk för tabulär data (Swedish)
Abstract [en]

Decision-making and prediction using tabular data often rely on machine learning models, particularly Gradient Boosting Decision Trees (GBDTs) or Deep Neural Networks (DNNs). This study compares variants and combinations of these two approaches, focusing mainly on their predictive performance, interpretability, and computational efficiency. A financial lending dataset is used, where the target variable is the probability of default. Our results showed that GBDTs consistently outperformed DNNs in terms of ROC-AUC and AUPRC scores, while ensemble models that combined GBDTs and DNNs demonstrated marginal performance improvements. Additionally, GBDTs proved to be more computationally efficient, requiring less training and prediction time and having smaller model sizes. These findings align with current literature, confirming the superior performance of GBDTs on tabular data. We also explored the interpretability of the models and found that both GBDTs and DNNs provided comparable levels of interpretability. Possible future work includes expanding the analysis to multiple datasets from various domains and exploring more advanced DNN architectures and ensembling techniques.

Abstract [sv]

För att ta beslut och göra förutsägelser med hjälp av tabulär data används ofta maskininlärningsmodeller, mer specifikt används ofta Gradient Boosting Decision Trees (GBDTs) eller Deep Neural Networks (DNNs). Denna studie jämför varianter och kombinationer av dessa två typer av modeller, med fokus huvudsakligen på deras prediktiva prestanda, tolkningsbarhet och beräkningsmässiga effektivitet. En finansiell datamängd används, där målvariabeln är sannolikheten för utebliven återbetalning av ett lån. Våra resultat visade att GBDTs konsekvent överträffade DNNs när det gäller ROC-AUC- och AUPRC-poäng, medan ensemblemodeller som kombinerade GBDTs och DNNs visade marginella prestandaförbättringar. Dessutom visade sig GBDTs vara mer beräkningsmässigt effektiva, krävde mindre träning och förutsägningstid samt hade mindre modellstorlekar. Dessa fynd överensstämmer med nuvarande litteratur och bekräftar GBDTs dominans över DNNs på tabulär data. Gällande tolkningsbarhet fann vi att de båda typerna var på jämförbara nivåer. Möjligt framtida arbete inkluderar att utvidga analysen till flera datamängder från olika domäner och att utforska mer avancerade DNN-arkitekturer och ensembletekniker.

Place, publisher, year, edition, pages
2024. , p. 42
Series
TRITA-EECS-EX ; 2024:338
Keywords [en]
Tabular Data, Machine Learning, Deep Neural Networks, Gradient Boosting Decision Trees, Lending
Keywords [sv]
Tabulär Data, Maskininlärning, Djupa Neurala Nätverk, Gradientförstärkande Beslutsträd, Utlåning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351047OAI: oai:DiVA.org:kth-351047DiVA, id: diva2:1885958
Supervisors
Examiners
Available from: 2024-10-18 Created: 2024-07-28 Last updated: 2024-10-18Bibliographically approved

Open Access in DiVA

fulltext(1238 kB)279 downloads
File information
File name FULLTEXT02.pdfFile size 1238 kBChecksum SHA-512
1138d54c7f9f0de5867e2d19e148bae1037b04bc219a4afb599594500b3e69203b2cb5cd2ca852263ed1ae279b61278db4045f96188a7df67df1b009029c14d6
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 282 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 180 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf