Explanation methods on a partially trained model
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förklarings metoder på delvis tränad model (Swedish)
Abstract [en]
The rapid evolution of AI necessitates further understanding in all stages from development to end use. The field of explainable AI (XAI) as the name suggests seeks to produce effective and concise explanations of AI. Within XAI numerous methods to explain a model’s predictions have been proposed and tested. Following this, extensive benchmarking has been developed and performed to test the explanation methods relative performance. Existing benchmarks test a static model in multiple different regards, however, to the best of our knowledge, no benchmark dynamically tests explanation methods for a model in different stages in training. We propose a novel approach of benchmarking explanation methods at different stages in training for a model. To evaluate the relative performance of the tested explanation methods we use two intuitive summary statistics: insertion area under curve (IAUC) and deletion area under curve (DAUC). From our experimental results we conclude that the performance of the tested explanation methods vary over the course of training the model, specifically an improvement in explanation performance as the model is trained. The code used in this project can be found here∗
Abstract [sv]
Den snabba utvecklingen av AI kräver djupare förståelse i alla led från utveckling till användning. Fältet av förklarbar AI (XAI, från engelskans eXplainable), så som namnet tippar, söker att producera effektiva och koncisa förklaringar av AI. Inom XAI har många metoder utvecklats och testats. Till följd av detta har utveckling och testning av benchmarking gjorts utförligt för att mäta förklaringsmetoders relativa prestanda. Existerande benchmarks testar en statisk modell på många olika sätt, men i vår vetskap, finns ingen benchmark som testar förklaringsmetoder på en modell i flera olika stadier i träning. Vi föreslår en ny metod för benchmarking av förklaringsmetoder i olika stadier av träning. För att evaluera den relativa prestandan av de testade förklaringsmetoderna använder vi två intuitiva sammanställande statistiker: insättnings area under kurva (IAUC) och borttagnings area under kurva (DAUC). Från våra experimentella resultat drar vi slutsatsen att prestandan av de testade förklaringsmetoderna varierar över tiden av träning av modellen, specifikt identifierar vi en förbättring is förklarings prestanda allt eftersom modellen är tränad. Koden som användes i detta arbete kan finnas här∗
Place, publisher, year, edition, pages
2024. , p. 26
Series
TRITA-EECS-EX ; 2024:814
Keywords [en]
AI, XAI, Explantion methods, Attribution methods
Keywords [sv]
AI, Förklarbar AI, XAI, Förklarings metoder
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360318OAI: oai:DiVA.org:kth-360318DiVA, id: diva2:1939981
Supervisors
Examiners
2025-02-272025-02-252025-02-27Bibliographically approved