kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Are Natural Domain Foundation Models Useful for Medical Image Classification?
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Beräkningsvetenskap och beräkningsteknik (CST). KTH, Centra, Science for Life Laboratory, SciLifeLab.ORCID-id: 0009-0008-4117-1638
KTH, Centra, Science for Life Laboratory, SciLifeLab. KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Beräkningsvetenskap och beräkningsteknik (CST).
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Beräkningsvetenskap och beräkningsteknik (CST). KTH, Centra, Science for Life Laboratory, SciLifeLab.ORCID-id: 0000-0003-2920-8510
AstraZeneca, Gothenburg, Sweden.
Visa övriga samt affilieringar
2024 (Engelska)Ingår i: Proceedings - 2024 IEEE Winter Conference on Applications of Computer Vision, WACV 2024, Institute of Electrical and Electronics Engineers (IEEE) , 2024, s. 7619-7628Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

The deep learning field is converging towards the use of general foundation models that can be easily adapted for diverse tasks. While this paradigm shift has become common practice within the field of natural language processing, progress has been slower in computer vision. In this paper we attempt to address this issue by investigating the transferability of various state-of-the-art foundation models to medical image classification tasks. Specifically, we evaluate the performance of five foundation models, namely Sam, Seem, Dinov2, BLIP, and OpenCLIP across four well-established medical imaging datasets. We explore different training settings to fully harness the potential of these models. Our study shows mixed results. Dinov2 consistently outperforms the standard practice of ImageNet pretraining. However, other foundation models failed to consistently beat this established baseline indicating limitations in their transferability to medical image classification tasks.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE) , 2024. s. 7619-7628
Nyckelord [en]
Algorithms, Algorithms, and algorithms, Applications, Biomedical / healthcare / medicine, Datasets and evaluations, formulations, Machine learning architectures
Nationell ämneskategori
Datavetenskap (datalogi) Datorgrafik och datorseende
Identifikatorer
URN: urn:nbn:se:kth:diva-350585DOI: 10.1109/WACV57701.2024.00746ISI: 001222964607075Scopus ID: 2-s2.0-85184972028OAI: oai:DiVA.org:kth-350585DiVA, id: diva2:1884793
Konferens
2024 IEEE Winter Conference on Applications of Computer Vision, WACV 2024, Waikoloa, United States of America, Jan 4 2024 - Jan 8 2024
Anmärkning

Part of ISBN 9798350318920

QC 20240718

Tillgänglig från: 2024-07-18 Skapad: 2024-07-18 Senast uppdaterad: 2025-12-08Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Huix, Joana PalésGaneshan, Adithya RajuFredin Haslum, JohanMatsoukas, ChristosSmith, Kevin

Sök vidare i DiVA

Av författaren/redaktören
Huix, Joana PalésGaneshan, Adithya RajuFredin Haslum, JohanMatsoukas, ChristosSmith, Kevin
Av organisationen
Beräkningsvetenskap och beräkningsteknik (CST)Science for Life Laboratory, SciLifeLab
Datavetenskap (datalogi)Datorgrafik och datorseende

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 111 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf