Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
The Ability of Visual and Language Explainable Models to Resemble Domain Expertise: Using the Local Surrogate Explainability Technique
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2022 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgave
Abstract [en]

Recent advances in vision and language models have taken inspiration from the language transformer network BERT, with promising results on visual and language tasks. In parallel, studies show that learning from the joint vision and language embeddings is effective in learning clinical tasks, especially learning from radio-graph and radiology reports. However, there is a constant need for model transparency in the healthcare field, and state-of-the-art vision and language models struggle to explain made predictions. One prominent technique to explain predictions of deep learning models is using a local surrogate model, which separates the machine learning explanations from the machine learning model. In addition, the inclusion of domain expertise has been shown to be an essential success factor for machine learning models to make an entrance into the medical field. This thesis work explores the feasibility of resembling domain expertise when using the local surrogate explainability technique in combination with an underlying vision and language model to generate multimodal visual and language explanations. A case study has been carried out to explain vision and language models trained to predict thoracic findings from radio-graphs and radiology reports. More specifically, we trained an UNITER and a VisualBERT network on the machine learning task and then trained explainable models to generate explanations for model predictions. Next, we collected explanations from domain experts and finally compared those with explanations from the explainable model. The results show low similarity compared to domain expertise. Nevertheless, the results also suggest that the particular case study task of explaining thoracic findings is challenging as annotations from domain experts indicate that there is ambiguity on what is the ground truth in terms of explanations. Furthermore, despite the low similarity scores, the explainable models seem to some extent have captured signals in explaining predictions, and generated explanations can serve as helpful feedback for data scientists and machine learning engineers in the field. 

Abstract [sv]

De senaste framstegen inom syn- och språkmodeller har hämtat inspiration från språktransformatornätverket BERT och utvisar lovande resultat på visuella och språkliga uppgifter. Parallellt visar studier att lärande från den gemensamma inbäddningen av syn och språk är effektivt för att lära sig kliniska uppgifter, särskilt lärande från röntgenbilder och röntgenrapporter. Det finns dock ett ständigt behov av modelltransparens inom vård och medicin, och state-of-the-art syn- och språkmodeller har svårt att förklara sina prediktioner. En framträdande teknik för att förklara prediktioner inom djupinlärning är att använda en lokal surrogatmodell, som särskiljer maskininlärningsförklaringar från maskininlärningsmodellen. Dessutom har inkluderingen av domänexpertis visat sig vara en viktig framgångsfaktor för maskininlärningsmodeller inom medicinska fältet. Detta examensarbete undersöker möjligheten att efterlikna domänexpertis vid användet av den lokala surrogattekniken i kombination med en underliggande syn- och språkmodeller för att generera multimodala syn- och språkförklaringar. En fallstudie har genomförts för att förklara syn- och språkmodeller som tränats för att prediktera thoraxfynd från röntgenbilder och röntgenrapporter. Mer specifikt tränade vi ett UNITER- och ett VisualBERT-nätverk på maskininlärnings-uppgiften och tränade sedan förklarande modeller för att generera förklaringar till modell-prediktioner. Därefter samlade vi in motsvarande förklaringar från domänexperter och jämförde dem med förklaringar från förklaringsmodellen. Resultaten visar låg likhet jämfört med domänexpertis. Däremot tyder resultaten också på att för den specifika fallstudie-uppgiften av att förklara thorax-fynd är utmanande eftersom annoteringar från domänexperter indikerar på tvetydighet gällande vad som är sanna förklaringar. Vidare, även om resultaten visar låga likhetsvärden, så verkar förklaringarnsmodellerna ha upptagit en viss signal till att förklara prediktioner, och genererade förklaringar kan fungera som användbar feedback för data scientists och maskininlärningsingenjörer i fältet.

sted, utgiver, år, opplag, sider
2022. , s. 51
Serie
TRITA-EECS-EX ; 2022:214
Emneord [en]
explainable machine learning, multi-modality, vision and language models, healthcare
Emneord [sv]
förklarande maskininlärning, multimodalitet, syn- och språkmodeller, sjukvård
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-316879OAI: oai:DiVA.org:kth-316879DiVA, id: diva2:1692165
Eksternt samarbeid
Amazon Web Services
Veileder
Examiner
Tilgjengelig fra: 2022-09-05 Laget: 2022-09-01 Sist oppdatert: 2022-09-05bibliografisk kontrollert

Open Access i DiVA

Fulltekst mangler i DiVA

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric

urn-nbn
Totalt: 141 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf