A Comparison of Categorical, Image, and Hybrid-Based Machine Learning for Classification of Breast Cancer
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
En jämförelse av kategorisk-, bild- och hybridbaserad maskininlärning för klassificering av bröstcancer (Swedish)
Abstract [en]
One of the leading global health issues is cancer. For women, by far the most pervasive variant is breast cancer. It was also one of the cancers with the highest number of new cases in 2020. To give individuals suffering from breast cancer the best chance possible to survive it is vital to detect the disease early. To do so, computer-aided diagnostics such as a machine learning model can be used to classify mammography images of the breast abnormality as either benign or malignant. In the patient’s journal, more data is available regarding the abnormality and the context of how the mammography scans were taken. This paper aims to examine how that additional data might affect the performance of a model classifying mammography images. Three different image model architectures were used, one quite simple and two utilizing transfer learning. They were then combined with a rather simple architecture used for the additional categorical data. The categorical data was divided into three classes: features describing how the images were taken (class 1), features describing the abnormality (class 2), and a combination of the two aforementioned classes (class 3). The results show that a significant increase was achieved when comparing the hybrid models to the image-only models. However, this increase seems to occur as a result of the image model’s poor performance, and the categorical data being favored by the models combining the two modalities. A slight synergy effect was observed for the hybrid models using the class 3 data. This was, however, too small for us to be able to make any general claims.
Abstract [sv]
En av de ledande globala hälsoproblemen är cancer. För kvinnor är den absolut mest förekommande varianten bröstcancer. Det var även en av varianterna av cancer med det högsta antalet nya fall 2020. För att ge individer drabbade av bröstcancer den bästa möjliga chansen att överleva är det avgörande att att upptäcka sjukdomen i ett tidigt stadie. För att göra det kan datorstödd diagnostik, som exempelvis en maskininlärningsmodel, användas för att classificera mammografibilder av bröstabnormiteter som elak- eller godartad. I patientjournalen finns det givetvis mer data som beskriver abnormiteten och den kontext i vilken bilderna togs. Den här rapporten har som mål att undersöka hur ytterligare data kan påverka prestandan hos en model som klassificerar mammografibilder. Tre olika arkitekturer för bildmodeller användes, en rätt så enkel och två som nyttjade transfer learning. Vardera arkitektur kombinerades med en ganska enkel arkitektur som användes för den ytterligare kategoriska datan. Den kategoriska datan delades in i tre klasser: attribut som beskriver hur bilderna togs (klass 1), attribut som beskriver abnormiteten (klass 2), och en kombination av de två redan nämnda klasserna (klass 3). Resultaten visar att en markant ökning uppnåddes när man jämför hybridmodellerna med modellerna som endast använder bilddata. Denna ökning verkar dock uppstå till följd av bildmodellernas låga prestanda och att den kategoriska datan föredras av modellerna som kombinerar de två modaliteterna. En viss synergieffekt observerades för kombinationsmodellerna som använde klass 3-data. Den var dock för liten för att vi ska kunna göra några generella påståenden.
Place, publisher, year, edition, pages
2024. , p. 32
Series
TRITA-EECS-EX ; 2024:339
Keywords [en]
Breast Cancer Classification, Deep Learning, Multimodal Data, Pre-trained Models, Hybrid Models
Keywords [sv]
Bröstcancerklassificering, Djupinlärning, Multimodal data, Förtränade modeller, Hybridmodeller
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351048OAI: oai:DiVA.org:kth-351048DiVA, id: diva2:1885959
Supervisors
Examiners
2024-08-222024-07-282024-08-22Bibliographically approved