The Ability of Visual and Language Explainable Models to Resemble Domain Expertise: Using the Local Surrogate Explainability Technique
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Recent advances in vision and language models have taken inspiration from the language transformer network BERT, with promising results on visual and language tasks. In parallel, studies show that learning from the joint vision and language embeddings is effective in learning clinical tasks, especially learning from radio-graph and radiology reports. However, there is a constant need for model transparency in the healthcare field, and state-of-the-art vision and language models struggle to explain made predictions. One prominent technique to explain predictions of deep learning models is using a local surrogate model, which separates the machine learning explanations from the machine learning model. In addition, the inclusion of domain expertise has been shown to be an essential success factor for machine learning models to make an entrance into the medical field. This thesis work explores the feasibility of resembling domain expertise when using the local surrogate explainability technique in combination with an underlying vision and language model to generate multimodal visual and language explanations. A case study has been carried out to explain vision and language models trained to predict thoracic findings from radio-graphs and radiology reports. More specifically, we trained an UNITER and a VisualBERT network on the machine learning task and then trained explainable models to generate explanations for model predictions. Next, we collected explanations from domain experts and finally compared those with explanations from the explainable model. The results show low similarity compared to domain expertise. Nevertheless, the results also suggest that the particular case study task of explaining thoracic findings is challenging as annotations from domain experts indicate that there is ambiguity on what is the ground truth in terms of explanations. Furthermore, despite the low similarity scores, the explainable models seem to some extent have captured signals in explaining predictions, and generated explanations can serve as helpful feedback for data scientists and machine learning engineers in the field.
Abstract [sv]
De senaste framstegen inom syn- och språkmodeller har hämtat inspiration från språktransformatornätverket BERT och utvisar lovande resultat på visuella och språkliga uppgifter. Parallellt visar studier att lärande från den gemensamma inbäddningen av syn och språk är effektivt för att lära sig kliniska uppgifter, särskilt lärande från röntgenbilder och röntgenrapporter. Det finns dock ett ständigt behov av modelltransparens inom vård och medicin, och state-of-the-art syn- och språkmodeller har svårt att förklara sina prediktioner. En framträdande teknik för att förklara prediktioner inom djupinlärning är att använda en lokal surrogatmodell, som särskiljer maskininlärningsförklaringar från maskininlärningsmodellen. Dessutom har inkluderingen av domänexpertis visat sig vara en viktig framgångsfaktor för maskininlärningsmodeller inom medicinska fältet. Detta examensarbete undersöker möjligheten att efterlikna domänexpertis vid användet av den lokala surrogattekniken i kombination med en underliggande syn- och språkmodeller för att generera multimodala syn- och språkförklaringar. En fallstudie har genomförts för att förklara syn- och språkmodeller som tränats för att prediktera thoraxfynd från röntgenbilder och röntgenrapporter. Mer specifikt tränade vi ett UNITER- och ett VisualBERT-nätverk på maskininlärnings-uppgiften och tränade sedan förklarande modeller för att generera förklaringar till modell-prediktioner. Därefter samlade vi in motsvarande förklaringar från domänexperter och jämförde dem med förklaringar från förklaringsmodellen. Resultaten visar låg likhet jämfört med domänexpertis. Däremot tyder resultaten också på att för den specifika fallstudie-uppgiften av att förklara thorax-fynd är utmanande eftersom annoteringar från domänexperter indikerar på tvetydighet gällande vad som är sanna förklaringar. Vidare, även om resultaten visar låga likhetsvärden, så verkar förklaringarnsmodellerna ha upptagit en viss signal till att förklara prediktioner, och genererade förklaringar kan fungera som användbar feedback för data scientists och maskininlärningsingenjörer i fältet.
Place, publisher, year, edition, pages
2022. , p. 51
Series
TRITA-EECS-EX ; 2022:214
Keywords [en]
explainable machine learning, multi-modality, vision and language models, healthcare
Keywords [sv]
förklarande maskininlärning, multimodalitet, syn- och språkmodeller, sjukvård
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-316879OAI: oai:DiVA.org:kth-316879DiVA, id: diva2:1692165
External cooperation
Amazon Web Services
Supervisors
Examiners
2022-09-052022-09-012022-09-05Bibliographically approved