A Comparative Study on the Effects of Removing the Most Important Feature on Random Forest and Support Vector Machine
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
En jämförande studie av effekterna på Random Forest och Support Vector Machine vid extrahering av den viktigaste attributen (Swedish)
Abstract [en]
Machine learning (ML) for classification is largely regarded as a “black box”, in that it’s difficult to fully understand how the model reached a decision, and how changes to the input affects the output. Therefore, exploring the inner workings of classification models are of interest for expanding the current knowledge base, providing guidelines for choosing a more suitable classification model for a specific problem. In this study we have focused on the effects on the classification performance of two classifiers, Support Vector Machine (SVM) and Random Forest (RF), when removing the feature from two datasets ranked as most important using two different feature importance methods: SHAP for SVM and Gini Impurity for RF. The two models were first trained on the full featured datasets, then on the datasets with the most important feature removed. The results of removing the most important feature from the dataset led to reduced accuracy for both models, but with a greater reduction for the SVM, while RF remained more stable. This may indicate that SVM is more dependent on the most important feature than RF. What was similar in our results as well as in a previous study, was that RF does not vary as much in accuracy as SVM when selecting a subset of features.
Abstract [sv]
Maskininlärning som klassifikationsmodell är i stort sett en “svarta låda”, i det att det ofta är svårt att säga vad utkomsten kommer vara givet någon inmatning, och hur modellen kom fram till en viss prediktion. Det finns därför ett intresse av att utforska hur en klassifikationsmodell fungerar för att bredda den nuvarande kunskapsbasen. Detta kan vidare underlätta valet av klassificerare när det inte är självklart vilken som passar bäst i ett särskilt problemområde, då djupare förståelse av klassificerare låter användaren göra ett mer välinformerat val. I vår forskningsartikel har vi valt att fokusera på hur prestandan påverkas för två klassificerare, Support Vector Machine (SVM), och Random Forest (RF), då den attribut som rankats högst, givet två olika “feature importance” metoder, tagits bort från två dataset. För feature importance använde vi Gini Impurity för RF och SHAP för SVM. De två klassifikationsmodellerna tränades först på ett dataset med alla mätvärden, sen på dataset där den viktigaste mätvärdet tagits bort, sen jämfördes resultaten före och efter. Resultatet av att ta bort det viktigaste mätvärdet var att noggrannheten för både SVM och RF sjönk, dock med en kraftigare minskning för SVM, medan RF höll sig mer stabil. Detta kan tyda på att SVM är mer beroende av den viktigaste attributen för att göra noggranna prediktioner. I linje med vårt resultat visar tidigare forskning att RF inte varierar i lika stor grad som SVM då attribut extraheras från dataset.
Place, publisher, year, edition, pages
2023. , p. 25
Series
TRITA-EECS-EX ; 2023:301
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-330849OAI: oai:DiVA.org:kth-330849DiVA, id: diva2:1779204
Supervisors
Examiners
2023-08-012023-07-032023-08-01Bibliographically approved