kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A Comparison of Categorical, Image, and Hybrid-Based Machine Learning for Classification of Breast Cancer
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
En jämförelse av kategorisk-, bild- och hybridbaserad maskininlärning för klassificering av bröstcancer (Swedish)
Abstract [en]

One of the leading global health issues is cancer. For women, by far the most pervasive variant is breast cancer. It was also one of the cancers with the highest number of new cases in 2020. To give individuals suffering from breast cancer the best chance possible to survive it is vital to detect the disease early. To do so, computer-aided diagnostics such as a machine learning model can be used to classify mammography images of the breast abnormality as either benign or malignant. In the patient’s journal, more data is available regarding the abnormality and the context of how the mammography scans were taken. This paper aims to examine how that additional data might affect the performance of a model classifying mammography images. Three different image model architectures were used, one quite simple and two utilizing transfer learning. They were then combined with a rather simple architecture used for the additional categorical data. The categorical data was divided into three classes: features describing how the images were taken (class 1), features describing the abnormality (class 2), and a combination of the two aforementioned classes (class 3). The results show that a significant increase was achieved when comparing the hybrid models to the image-only models. However, this increase seems to occur as a result of the image model’s poor performance, and the categorical data being favored by the models combining the two modalities. A slight synergy effect was observed for the hybrid models using the class 3 data. This was, however, too small for us to be able to make any general claims.

Abstract [sv]

En av de ledande globala hälsoproblemen är cancer. För kvinnor är den absolut mest förekommande varianten bröstcancer. Det var även en av varianterna av cancer med det högsta antalet nya fall 2020. För att ge individer drabbade av bröstcancer den bästa möjliga chansen att överleva är det avgörande att att upptäcka sjukdomen i ett tidigt stadie. För att göra det kan datorstödd diagnostik, som exempelvis en maskininlärningsmodel, användas för att classificera mammografibilder av bröstabnormiteter som elak- eller godartad. I patientjournalen finns det givetvis mer data som beskriver abnormiteten och den kontext i vilken bilderna togs. Den här rapporten har som mål att undersöka hur ytterligare data kan påverka prestandan hos en model som klassificerar mammografibilder. Tre olika arkitekturer för bildmodeller användes, en rätt så enkel och två som nyttjade transfer learning. Vardera arkitektur kombinerades med en ganska enkel arkitektur som användes för den ytterligare kategoriska datan. Den kategoriska datan delades in i tre klasser: attribut som beskriver hur bilderna togs (klass 1), attribut som beskriver abnormiteten (klass 2), och en kombination av de två redan nämnda klasserna (klass 3). Resultaten visar att en markant ökning uppnåddes när man jämför hybridmodellerna med modellerna som endast använder bilddata. Denna ökning verkar dock uppstå till följd av bildmodellernas låga prestanda och att den kategoriska datan föredras av modellerna som kombinerar de två modaliteterna. En viss synergieffekt observerades för kombinationsmodellerna som använde klass 3-data. Den var dock för liten för att vi ska kunna göra några generella påståenden.

Place, publisher, year, edition, pages
2024. , p. 32
Series
TRITA-EECS-EX ; 2024:339
Keywords [en]
Breast Cancer Classification, Deep Learning, Multimodal Data, Pre-trained Models, Hybrid Models
Keywords [sv]
Bröstcancerklassificering, Djupinlärning, Multimodal data, Förtränade modeller, Hybridmodeller
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351048OAI: oai:DiVA.org:kth-351048DiVA, id: diva2:1885959
Supervisors
Examiners
Available from: 2024-08-22 Created: 2024-07-28 Last updated: 2024-08-22Bibliographically approved

Open Access in DiVA

fulltext(1296 kB)253 downloads
File information
File name FULLTEXT01.pdfFile size 1296 kBChecksum SHA-512
a3ffb9bdbebc521be95f263216e55a23386dc8ef89343c998a059a4b6b4529cf15eba45935a2f9fe96bd088f96b5c10d2b28d0bca8651eb91d29433c6c5e01cb
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 253 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 892 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf