kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Explainability Methods for Transformer-based Artificial Neural Networks:: a Comparative Analysis
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2022 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Förklaringsmetoder för Transformer-baserade artificiella neurala nätverk : en jämförande analys (Svenska)
Abstract [en]

The increasing complexity of Artificial Intelligence (AI) models is accompanied by an increase in difficulty in interpreting model predictions. This thesis work provides insights and understanding of the differences and similarities between explainability methods for AI models. Opening up black-box models is important, especially if AI is applied in sensitive domains such as to, e.g., aid medical professionals. In recent years, the use of Transformer-based artificial neural network architectures such as Bidirectional Encoder Representations from Transformers (BERT) has become common in the field of Natural Language Processing (NLP), showing human-level performance on tasks such as sentiment classification and question answering. In addition, a growing portion of research within eXplainable AI (XAI) has shown success in using explainability methods to output auxiliary explanations at inference time together with predictions made by these complex models. When scoping the different methods, there is a distinction to be made whether the explanations emerge as part of the prediction process or subsequently via a separate model. These two categories of explainability methods are referred to as self-explaining and post-hoc, respectively. The goal of this work is to evaluate, analyze and compare these two categories of methods for assisting BERT models with explanations in the context of sentiment classification. A comparative analysis was therefore conducted in order to investigate quantitative and qualitative differences. To measure the quality of explanations, the Intersection Over Union (IOU) and Precision-Recall Area Under the Curve (PR-AUC) scores were used together with Explainable NLP (ExNLP) datasets, containing human annotated explanations. Apart from discussing benefits, drawbacks and assumptions of the different methods, results of the work indicated that the self-explaining method proved more successful in some instances while the post-hoc method performed better in others. Given the subjective nature of explanation quality, however, this work should be extended in several proposed directions, in order to fully capture the nuances of the explainability methods.

Abstract [sv]

Parallellt med den ökande komplexiteten hos modeller med artificiell intelligens (AI) följer en ökad svårighet att tolka förutsägelser som modellerna gör. Detta examensarbete fokuserar på skillnader och likheter mellan förklaringsmetoder för AI-modeller. Att skapa mer transparens kring modellerna är viktigt, speciellt om AI ska appliceras i känsliga områden som t.ex. inom hälso- och sjukvård. Under de senaste åren har användningen av Transformer-baserade artificiella neurala nätverk som Bidirectional Encoder Representations from Transformers (BERT) blivit vanligt inom Natural Language Processing (NLP). Resultaten som modellerna når på uppgifter såsom sentimentklassificering och svar på frågor är på en mänsklig nivå. En växande del av forskningen inom eXplainable AI (XAI) har dessutom kunnat visa stora framsteg inom användandet av förklaringsmetoder, för att bistå förutsägelserna som dessa komplexa modeller gör med förklaringar. I kategoriseringar av metoderna särskiljs det ofta mellan huruvida förklaringarna uppstår som en del av förutsägelsen, tillsammans med modellen eller om de skapas efteråt via en separat modell. Dessa två kategorier av förklaringsmetoder kallas självförklarande och post-hoc. Målet med detta arbete är att utvärdera, analysera och jämföra dessa två kategorier av metoder som används för att hjälpa BERT-modeller med förklaringar i samband med sentimentklassificering av text. En jämförande analys genomfördes därför för att undersöka kvantitativa och kvalitativa skillnader. För att mäta kvaliteten på förklaringar användes Intersection Over Union (IOU) och Precision-Recall Area Under the Curve (PR-AUC) tillsammans med dataset skräddarsydda för just Explainable NLP (ExNLP) innehållande mänskligt annoterade förklaringar. Förutom att diskutera fördelar, nackdelar och antaganden med de olika metoderna, pekade resultaten på att den självförklarande metoden presterade bättre i vissa fall medan post-hoc-metoden presterade bättre i andra. Med tanke på hur kvaliteten av förklaringar till stor del handlar om en subjektiv bedömning bör dock detta arbete utvidgas i flera riktningar – föreslagna i detta arbete – för att fånga alla nyanser av förklaringsmetoderna.

Ort, förlag, år, upplaga, sidor
2022. , s. 58
Serie
TRITA-EECS-EX ; 2022:362
Nyckelord [en]
XAI, NLP, Transformers, BERT, explainable predictions, SHAP, Attention
Nyckelord [sv]
XAI, NLP, Transformers, BERT, förklarbara förutsägelser, SHAP, Attention
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-320364OAI: oai:DiVA.org:kth-320364DiVA, id: diva2:1704879
Ämne / kurs
Maskinteknik
Utbildningsprogram
Teknologie masterexamen - Maskininlärning
Handledare
Examinatorer
Tillgänglig från: 2022-10-20 Skapad: 2022-10-19 Senast uppdaterad: 2022-10-20Bibliografiskt granskad

Open Access i DiVA

fulltext(7195 kB)5362 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 7195 kBChecksumma SHA-512
121b3921d26fed684e5d79cd7e6a65f5c6ce78f45e35fdfb1d172d839902a22c5b2a3cdc2ce01eeb0cfe4cf1a744ccdbec272b2a9fe4c1e5f5ac3a4544e828d0
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 5369 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 1217 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf