kth.sePublications
Planned maintenance
A system upgrade is planned for 10/12-2024, at 12:00-13:00. During this time DiVA will be unavailable.
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Knee MRI segmentation of Cartilage,Bones and Menisci with ShiftedWindon Vision (Swin) Transformer: A comparative deep learning study.
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Knä-MR-segmentering av brosk, ben och menisker med hierarkisk skiftad fönstersynstransformator. : En jämförande djupinlärningsstudie. (Swedish)
Abstract [en]

The practice of radiology is witnessing a major transformation with the emergence of deep learning technologies and their implementation into routine clinical imaging. Knee injuries are one of the most common musculoskeletal lesions that require meticulous attention. In these circumstances, magnetic resonance imaging (MRI) segmentation is an essential prerequisite for diagnosis and treatment planning. The automation of this timeconsuming task can therefore be a real breakthrough for knee trauma management. While convolutional neural networks (CNNs) have achieved milestones in medical image analysis, they cannot learn long-range semantic information due to their inherent shortcomings of spatial inductive bias. On the other hand, shifted window vision transformers (Swin-Transformers) have drawn great attention from the medical imaging community thanks to their innate global self-attention mechanisms that provide long-term dependencies. Considering the strict segmentation requirements imposed by the anatomy of the cartilage and meniscal areas, we aim to obtain more anatomically plausible segmentation contours via interleaving these two vision backbones in a U-shaped encoder-decoder network. This hybrid scheme gives full play to their strengths while alleviating their respective limitations. Thiswork investigates the effect of long-range semantic information on knee MRI segmentation performance in terms of dice score and Hausdorff distance through an exhaustive deep learning comparative study. Empirical results show strong statistical evidence in favor of integrating Swin-Transformer backbone in a U-shaped architecture that improves not only the segmentation performance but also the generalization power to out-ofdistribution MRIs. Additionally, early-stage experiments regarding MRI domain adaptation are conducted with cycle consistent adversarial networks (CycleGANs) to improve the robustness of the models to the heterogeneity of MRI acquisition settings. The best benchmarked model CEHD (i.e., CNN Encoder Hybrid Decoder), based on an empirical combination of self-attention and convolution, outperforms classical fully convolutional architectures UNet in terms of Hausdorff distance while preserving the same competitive dice scores on the subset v12 of the open-source dataset from Zuse Institute Berlin. The hybrid network achieves top Hausdorff distances for tibial cartilage and both menisci and competitive mean dice scores across all anatomical structures. 

Abstract [sv]

Utövandet av radiologi bevittnar en stor förändring med uppkomsten av djupinlärningstekniker och deras implementering i rutinmässig klinisk avbildning. Knäskador är en av de vanligaste muskuloskeletala lesionerna som kräver noggrann uppmärksamhet. Under dessa omständigheter är segmentering av magnetisk resonanstomografi (MRT) en väsentlig förutsättning för diagnos och behandlingsplanering. Automatiseringen av denna tidskrävande uppgift kan därför bli ett verkligt genombrott för hantering av knätrauma. Medan konvolutionella neurala nätverk (CNN) har uppnått milstolpar i medicinsk bildanalys, kan de inte lära sig långväga semantisk information på grund av deras inneboende brister i rumslig induktiv förspänning. Å andra sidan har transformatorer för förskjutna fönstersyn (Swin-Transformers) dragit stor uppmärksamhet från den medicinska bildbehandlingsgemenskapen tack vare deras medfödda globala självuppmärksamhetsmekanismer som ger långsiktiga beroenden. Med tanke på de strikta segmenteringskraven som ställs av brosk- och meniskområdenas anatomi, strävar vi efter att erhålla mer anatomiskt rimliga segmenteringskonturer genom att interfoliera dessa två synryggrader i ett U-format encoder-decoder-nätverk som ger full spel åt deras styrkor samtidigt som de lindrar deras respektive begränsningar. Detta arbete undersöker effekten av långdistans semantisk information på knä-MR-segmenteringsprestanda i termer av tärningspoäng och Hausdorff-distans genom en uttömmande jämförande studie med djupinlärning. Empiriska resultat visar starka statistiska bevis för att integrera Swin-Transformer-ryggraden i en U-formad arkitektur, vilket inte bara förbättrar segmenteringsprestandan utan också dess generaliseringsförmåga till MRI:s utanför distribution. Dessutom utförs experiment i tidiga skeden angående MRI-domänanpassning med cykelkonsekventa motstridiga nätverk (CycleGAN) för att förbättra modellernas robusthet mot heterogeniteten i MRT-insamlingsinställningar. Den bästa benchmarkerade modellen CEHD (dvs. CNN Encoder Hybrid Decoder), baserad på en empirisk kombination av självuppmärksamhet och faltning, överträffar klassiska fullt faltningsarkitekturer UNet när det gäller Hausdorff-avstånd samtidigt som den bevarar samma konkurrenskraftiga tärningspoäng på delmängden v12 av datauppsättningen med öppen källkod från Zuse Institute Berlin.

Abstract [fr]

La pratique de la radiologie connaît une transformation majeure avec l’émergence des technologies d’apprentissage en profondeur et leur mise en oeuvre dans l’imagerie clinique de routine. Les traumatismes du genou sont l’une des lésions musculosquelettiques les plus courantes qui nécessitent une attention méticuleuse. Dans ces circonstances, la segmentation d’images par résonance magnétique (IRM) est un prérequis essentiel au diagnostic et à la planification des traitements. L’automatisation de cette tâche chronophage peut donc constituer une véritable avancée pour la prise en charge des traumatismes du genou. Alors que les réseaux de neurones convolutifs (CNN) ont franchi des étapes importantes dans l’analyse d’images médicales, ils ne peuvent pas apprendre d’informations sémantiques à longue portée en raison de leurs lacunes inhérentes de biais inductif spatial. D’autre part, les transformateurs de vision à fenêtre décalée (Swin-Transformer) ont attiré l’attention de la communauté de l’imagerie médicale grâce à leurs mécanismes innés d’auto-attention globale qui fournissent des dépendances à long terme. Compte tenu des exigences de segmentation strictes imposées par l’anatomie des zones cartilagineuses et méniscales, nous souhaitons obtenir des contours de segmentation plus plausibles sur le plan anatomique en imbriquant ces deux modèles de vision dans un réseau d’encodeur-décodeur en forme de U. Ce schéma hybride exploite pleinement leurs atouts tout en atténuant leurs limites respectives. Ce travail étudie l’effet des informations sémantiques à longue portée sur les performances de segmentation de l’IRM du genou en termes de dice score et de distance de Hausdorff à travers une étude comparative d’apprentissage en profondeur. Les résultats empiriques montrent des preuves statistiques solides en faveur de l’intégration du Swin-Transformer dans une architecture en forme de U, ce qui améliore non seulement les performances de segmentation, mais également le pouvoir de généralisation aux IRM hors distribution. De plus, des expériences préliminaires concernant l’adaptation du domaine IRM sont menées avec des réseaux contradictoires cohérents par cycle (CycleGAN) pour améliorer la robustesse des modèles à l’hétérogénéité des paramètres d’acquisition IRM. Le meilleur modèle de référence CEHD (i.e., CNN Encoder Hybrid Decoder), basé sur une combinaison empirique d’auto-attention et de convolution, surpasse les architectures classiques entièrement convolutives UNet en termes de distance de Hausdorff tout en préservant la même performance en dice score sur le sousensemble v12 de l’ensemble de données open source du Zuse Institute Berlin. 

Place, publisher, year, edition, pages
2022. , p. 74
Series
TRITA-EECS-EX ; 2022:279
Keywords [en]
Shifted Window Vision Transformers, Knee Magnetic Resonance Imaging (MRI), Medical Image Segmentation, MRI domain adaptation, Deep Learning, Knee Cartilage Bones and Menisci.
Keywords [fr]
Transformateurs de vision à fenêtre décalée, imagerie par résonance magnétique (IRM) du genou, segmentation d’images médicales, adaptation du domaine IRM, apprentissage en profondeur, os et ménisques du cartilage du genou.
Keywords [sv]
Shifted Window Vision Transformers, Knee Magnetic Resonance Imaging (MRI), medicinsk bildsegmentering, MRI-domänanpassning, djupinlärning, knäbroskben och menisker.
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-318608OAI: oai:DiVA.org:kth-318608DiVA, id: diva2:1697794
External cooperation
Incepto Medical
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2022-09-22 Created: 2022-09-21 Last updated: 2022-09-22Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 288 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf