kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A Comparative Study on the Effects of Removing the Most Important Feature on Random Forest and Support Vector Machine
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
En jämförande studie av effekterna på Random Forest och Support Vector Machine vid extrahering av den viktigaste attributen (Swedish)
Abstract [en]

Machine learning (ML) for classification is largely regarded as a “black box”, in that it’s difficult to fully understand how the model reached a decision, and how changes to the input affects the output. Therefore, exploring the inner workings of classification models are of interest for expanding the current knowledge base, providing guidelines for choosing a more suitable classification model for a specific problem. In this study we have focused on the effects on the classification performance of two classifiers, Support Vector Machine (SVM) and Random Forest (RF), when removing the feature from two datasets ranked as most important using two different feature importance methods: SHAP for SVM and Gini Impurity for RF. The two models were first trained on the full featured datasets, then on the datasets with the most important feature removed. The results of removing the most important feature from the dataset led to reduced accuracy for both models, but with a greater reduction for the SVM, while RF remained more stable. This may indicate that SVM is more dependent on the most important feature than RF. What was similar in our results as well as in a previous study, was that RF does not vary as much in accuracy as SVM when selecting a subset of features.

Abstract [sv]

Maskininlärning som klassifikationsmodell är i stort sett en “svarta låda”, i det att det ofta är svårt att säga vad utkomsten kommer vara givet någon inmatning, och hur modellen kom fram till en viss prediktion. Det finns därför ett intresse av att utforska hur en klassifikationsmodell fungerar för att bredda den nuvarande kunskapsbasen. Detta kan vidare underlätta valet av klassificerare när det inte är självklart vilken som passar bäst i ett särskilt problemområde, då djupare förståelse av klassificerare låter användaren göra ett mer välinformerat val. I vår forskningsartikel har vi valt att fokusera på hur prestandan påverkas för två klassificerare, Support Vector Machine (SVM), och Random Forest (RF), då den attribut som rankats högst, givet två olika “feature importance” metoder, tagits bort från två dataset. För feature importance använde vi Gini Impurity för RF och SHAP för SVM. De två klassifikationsmodellerna tränades först på ett dataset med alla mätvärden, sen på dataset där den viktigaste mätvärdet tagits bort, sen jämfördes resultaten före och efter. Resultatet av att ta bort det viktigaste mätvärdet var att noggrannheten för både SVM och RF sjönk, dock med en kraftigare minskning för SVM, medan RF höll sig mer stabil. Detta kan tyda på att SVM är mer beroende av den viktigaste attributen för att göra noggranna prediktioner. I linje med vårt resultat visar tidigare forskning att RF inte varierar i lika stor grad som SVM då attribut extraheras från dataset.

Place, publisher, year, edition, pages
2023. , p. 25
Series
TRITA-EECS-EX ; 2023:301
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-330849OAI: oai:DiVA.org:kth-330849DiVA, id: diva2:1779204
Supervisors
Examiners
Available from: 2023-08-01 Created: 2023-07-03 Last updated: 2023-08-01Bibliographically approved

Open Access in DiVA

fulltext(842 kB)382 downloads
File information
File name FULLTEXT01.pdfFile size 842 kBChecksum SHA-512
8bf88ed4cb93e4be68c32f141e56d716c1d1822b0d195edbf7c5ea0695975881c5a748b372aa21463026f108e895fd6551c4303f23448c218f4f8e659dffcf69
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 382 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 605 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf