Evaluation of Oversampling Methods For Artificial Neural Network Classification of Lung Cancer
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Utvärdering av översamplingsmetoder för klassificering av lungcancer med artificiellt neuralt nätverk (Swedish)
Abstract [en]
New methods of assessing lung cancer (LC) risk is being researched. Gregory R. Hart et. al [15] developed an artificial neural network (ANN) that used many features related to LC risk. They showed an ANN could be used to determine a participants risk of LC by answering simple questions related to health with good results. Their dataset was an imbalanced binary dataset which meant that they faced an imbalanced binary classification problem which commonly reduces performance of an ANN. A solution being oversampling, this thesis is set out with one research question: What effect does oversampling have on LC risk prediction, using an artificial neural network, when trained on an imbalanced binary dataset? The dataset had a 1:796 ratio of participants classified as having LC to healthy individuals. The results of three oversampling methods were compared to no oversampling when trained on an artificial neural network used for LC risk prediction. The results were taken from the best found settings for all oversampling methods. We showed that Random Oversampling (ROS) and Synthethic Minority Oversampling Technique (SMOTE) increased performance metrics commonly used for imbalanced binary dataset classification assessment. Furthermore, the AUROC score was shown to be statistically significant for these two oversampling methods compared to using no oversampling. The results for Synthethic Minority Oversampling Technique for Nominal and Continuous (SMOTE-NC) showed no significant effect, however a detrimental trend to common performance metrics could be seen compared to no oversampling.
Abstract [sv]
Det forskas om nya metoder för att undersöka och bedöma risken för lungcancer (LC). Gregory R. Hart et. al [15] har utvecklat ett Artificiellt Neuralt Nätverk (ANN) som kan behandla många parametrar som är relaterade till risken att drabbas av LC. De visade i sin forskning att ett ANN kan tillämpas för att bedöma risken för LC för en person genom att besvara enkla frågor relaterade till sin hälsa vilket gav goda resultat. Det datatset som användes i deras forskning var ett obalancerat binärt dataset (IBD), vilket innebar att de stod inför ett obalancerat binärt klassificeringsproblem (IBCP) som ofta bidrar till sämre prestanda för ett ANN. Då det är vanligt förekommande att lösa detta genom översampling, kommer denna studie att undersöka följande frågeställning: Vilken effekt har översampling på förmågan att riskbedöma LC med ett ANN som tränas med ett IBD? Datasetet har hade en ratio på 1:796 mellan svarsdeltagare som har LC och inte. Resultaten för tre översamplingsmetoder jämfördes med resultat utan användandet av översampling då dessa användes som data då ett ANN tränades att riskbedöma LC. Resultaten som användes framkom från samtliga översamplingsmetoder vars inställningar gav bästa resultat. Vi fann i våra resultat att Slumpmässig översampling (ROS) och Syntetisk minoritetsöversamplingsteknik (SMOTE), ökade prestandan för mått som är vanligt förekommande inom klassificering av obalancerade binära dataset. Vidare i resultaten fann vi att resultaten för AUROC var statistiskt signifikanta för dessa översamplingsmetoder då de jämfördes med resultaten för utan användning av översampling. Resultaten för översamplingsmetoden Syntetisk minoritetsöversamplingsteknik för nominell och kontinuerlig (SMOTE-NC) visade inte på några signifikanta förändringar utan påvisade en försämring i jämförelse med resultaten utan användningen av översampling.
Place, publisher, year, edition, pages
2022. , p. 41
Series
TRITA-EECS-EX ; 2022:474
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-319816OAI: oai:DiVA.org:kth-319816DiVA, id: diva2:1701963
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2022-10-102022-10-082022-10-10Bibliographically approved