Addressing Shortcomings of Explainable Machine Learning Methods
2025 (English) Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Recently, machine learning algorithms have achieved state-of-the-art performance in real-life applications in various domains, but such algorithms tend to produce non-interpretable models. However, users often require an understanding of the reasoning behind predictions to trust the models and use them in decision-making. Therefore, explainable machine learning has gained attention as a way to achieve transparency while keeping the performance of state-of-the-art algorithms. Various methods have been proposed as a post-hoc remedy to explain the black-box models. However, such techniques are constrained in their ability to provide a comprehensive and faithful insight into the prediction process. For instance, many explanation methods based on additive importance scores generate explanations without assurance that the explanation provided reflects the model's reasoning. Other rule-based explanations can produce excessively specific explanations that occasionally exhibit poor fidelity, i.e., they lack faithfulness to the underlying black-box model. Furthermore, explanation methods are generally computationally expensive, making their application unrealistic in many real-world situations.
We aim to tackle several key limitations of explainable machine learning methods, with a focus on (i) low fidelity, (ii) the absence of validity guarantees, i.e., explaining without a pre-specified error rate, (iii) and high computational cost. Firstly, we propose a method that summarizes local explanations into a concise set of characteristic rules that can be evaluated with respect to their fidelity. We also investigate using Venn prediction to quantify the uncertainty of rule-based explanations. In addition, we propose to estimate the accuracy of approximate explanations and establish error bounds for the accuracy estimates using the conformal prediction framework. Secondly, we propose a method to approximate any score-based explanation technique using computationally efficient regression models and produce error bounds around the approximated importance scores using conformal regression. Moreover, we propose a novel method to approximate Shapley value explanations in real time, achieving high similarity to the ground truth while using a limited amount of data. Thirdly, we propose a method that restricts graph neural networks to generate inherently interpretable models, hence saving the time and resources required for post-hoc explanations while maintaining high fidelity. We also extend the graph neural networks approach to process heterogeneous tabular data. Finally, we present a method that learns a function to compute Shapley values, from which the predictions are directly obtained by summation, that is, the method can compute the Shapley values beforehand.
Empirical investigations of the proposed methods suggest that the fidelity of approximated explanations can vary based on the black-box predictor, dataset, and explanation method. The conformal prediction framework can be reliable in controlling the error level when timely explanations are required. Furthermore, constraining graph neural networks to produce inherently explainable models does not necessarily compromise predictive performance and can reduce the time and resources needed for post-hoc explanations.
Abstract [sv]
Nyligen har maskininlärningsalgoritmer uppnått högsta prestanda för till-ämpningar inom olika områden, men sådana algoritmer tenderar att generera modeller som är svåra att tolka. Användare kräver dock ofta en förståelse för resonemanget bakom modellens förutsägelser för att kunna lita på dessa och använda dem för beslutsfattande. Därför har förklarbar maskininlärning fått uppmärksamhet som ett sätt att uppnå transparens samtidigt som prestandan hos algoritmerna bibehålls. Olika metoder har föreslagits för att i efterhand förklara så kallade "svart låda"-modeller. Dessa tekniker är dock begränsade i sin förmåga att ge en utförlig och exakt inblick i hur förutsägelserna går till. Till exempel genererar många förklaringsmetoder baserade på additiv viktighet förklaringar utan att säkerställa att de reflekterar modellens verkliga resonemang. Andra regelbaserade förklaringar kan skapa alltför specifika förklaringar som ibland uppvisar låg tillförlitlighet, det vill säga att de inte är trogna den underliggande "svart låda"-modellen. Dessutom är förklaringsmetoder generellt sett beräkningsmässigt kostsamma, vilket gör deras tillämpning orealistisk i många verkliga situationer.
Vi strävar efter att ta itu med flera viktiga begränsningar hos förklarbara maskininlärningsmetoder, med fokus på (i) låg tillförlitlighet, (ii) avsaknaden av garantier för giltighet, det vill säga förklaringar ges utan en förutbestämd felmarginal, och (iii) höga beräkningskostnader. För det första föreslår vi en metod som sammanfattar lokala förklaringar i en koncis uppsättning karakteristiska regler som kan utvärderas med avseende på deras tillförlitlighet. Vi undersöker också användningen av Venn-prediktion för att kvantifiera osäkerheten i regelbaserade förklaringar. Dessutom föreslår vi att noggrannheten hos de approximativa förklaringarna uppskattas och att felgränser för dessa uppskattningar fastställs med hjälp av ramverket för konform prediktion.
För det andra föreslår vi en metod för att approximera värdebaserade för-klaringstekniker genom att använda beräkningsmässigt effektiva regressionsmodeller och generera felgränser kring de approximativa värdena med hjälp av konform regressionsanalys. Vidare presenterar vi en ny metod för att approximera Shapley-värden i realtid, vilka uppnår hög likhet med de verkliga värdena samtidigt som en begränsad mängd data används. För det tredje föreslår vi en metod som begränsar grafneurala nätverk så att tolkningsbara modeller genereras, vilket sparar tid och resurser som annars skulle krävas för att generera förklaringar i efterhand, samtidigt som hög träffsäkerhet bibehålls. Vi utvidgar också tillämpningen av grafneurala nätverk till att hantera heterogena tabulära data. Slutligen presenterar vi en metod som lär sig en funktion för att beräkna Shapley-värden, från vilka förutsägelserna direkt erhålls genom summering, vilket innebär att metoden kan beräkna Shapley-värden i förväg.
Empiriska undersökningar av de föreslagna metoderna tyder på att pålitlighet hos approximativa förklaringar kan variera beroende på "svart låda"-modellen, datamängden och förklaringsmetoden. Ramverket för konform prediktion ger en tillförlitlig kontroll av felmarginalen när förklaringar krävs inom en snäv tidsram. Begränsningen av grafneurala nätverk till att generera förklarbara modeller leder inte nödvändigtvis till att den prediktiva prestandan försämras och dessutom kan tiden och resurserna som krävs för att generera förklaringar i efterhand minskas.
Place, publisher, year, edition, pages Stockholm: KTH Royal Institute of Technology, 2025. , p. xii, 73
Series
TRITA-EECS-AVL ; 2025:11
National Category
Computer Sciences
Research subject Information and Communication Technology
Identifiers URN: urn:nbn:se:kth:diva-358366 ISBN: 978-91-8106-107-9 (print) OAI: oai:DiVA.org:kth-358366 DiVA, id: diva2:1927808
Public defence
2025-02-13, https://kth-se.zoom.us/j/66054420196, Ka-Sal B (Peter Weisglass), Kistagången 16, Electrum, KTH Kista, Stockholm, 13:00 (English)
Opponent
Supervisors
Note QC 20250116
2025-01-162025-01-152025-01-17 Bibliographically approved
List of papers