Development of a Machine Learning Survival Analysis Pipeline with Explainable AI for Analyzing the Complexity of ED Crowding: Using Real World Data collected from a Swedish Emergency Department
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utveckling av en maskin inlärningsbaserad överlevnadsanalys pipeline med förklarbar AI för att analysera komplexiteten av överbefolkning på akuten : Genom verklig data från en svensk akutmottagning (Swedish)
Abstract [en]
One of the biggest challenges in healthcare is Emergency Department (ED) crowding which creates high constraints on the whole healthcare system as well as the resources within and can be the cause of many adverse events. Is is a well known problem were a lot of research has been done and a lot of solutions has been proposed, yet the problem still stands unsolved. By analysing Real-World Data (RWD), complex problems like ED crowding could be better understood. Currently very few applications of survival analysis has been adopted for the use of production data in order to analyze the complexity of logistical problems. The aims for this thesis was to apply survival analysis through advanced Machine Learning (ML) models to RWD collected at a Swedish hospital too see how the Length Of Stay (LOS) until admission or discharge were affected by different factors. This was done by formulating the crowding in the ED for survival analysis through the use of the LOS as the time and the decision regarding admission or discharge as the event in order to unfold the clinical complexity of the system and help impact clinical practice and decision making. By formulating the research as time-to-event in combination with ML, the complexity and non linearity of the logistics in the ED is viewed from a time perspective with the LOS acting as a Key Performance Indicator (KPI). This enables the researcher to look at the problem from a system perspective and shows how different features affect the time that the patient are processed in the ED, highlighting eventual problems and can therefore be useful for improving clinical decision making.
Five models: Cox Proportional Hazards (CPH), Random Survival Forests (RSF), Gradient Boosting (GB), Extreme Gradient Boosting (XGB) and DeepSurv were used and evaluated using the Concordance index (C-index) were GB were the best performing model with a C-index of 0.7825 showing that the ML models can perform better than the commonly used CPH model. The models were then explained using SHapley Adaptive exPlanations (SHAP) values were the importance of the features were shown together with how the different features impacted the LOS. The SHAP also showed how the GB handled the non linearity of the features better than the CPH model. The five most important features impacting the LOS were if the patient received a scan at the ED, if the visited and emergency room, age, triage level and the label indicating what type of medical team seems most fit for the patient. This is clinical information that could be implemented to reduce the crowding through correct decision making. These results show that ML based survival analysis models can be used for further investigation regarding the logistic challenges that healthcare faces and could be further used for data analysis with production data in similar cases. The ML survival analysis pipeline can also be used for further analysis and can act as a first step in order to pinpoint important information in the data that could be interesting for deeper data analysis, making the process more efficient
Abstract [sv]
En av de största utmaningarna inom vården är trängsel på akuten som skaparstora ansträngninar inom vårdsystemet samt på dess resurser och kan varaorsaken till många negativa händelser. Det är ett välkänt problem där mycketforskning har gjorts och många lösningar har föreslagits men problemetär fortfarande olöst. Genom att analysera verklig data så kan komplexaproblem som trängsel på akuten bli bättre förklarade. För närvarande harfå tillämpningar av överlevnadsanalys applicerats på produktionsdata för attanalysera komplexiteten av logistiska problem. Syftet med denna avhandlingvar att tillämpa överlevnadsanalys genom avancerade maskininlärningsmetoderpå verklig data insamlat på ett svenskt sjukhust för att se hur vistelsens längdför patienten fram till inläggning påverkades av olika faktorer. Detta gjordesgenom att applicera överlevnadsnanalys på trängsel på akuten genom attanvända vistelsens längd som tid och beslutet om intagning eller utskrivningsom händelsen. Detta för att kunna analysera systemets kliniska komplexitetoch bidra till att påverka klinisk praxis och beslutsfattande.Genom att formulera forskningsfrågan som en överlevnadsanalys i kombinationmed maskininlärning kan den komplexitet och icke-linjäritet som logistikenpå akuten innebär studeras genom ett tidsperspektiv där vistelsens längdfungerar som ett nyckeltal. Detta gör det möjligt för forskaren att ävenstudera problemet från ett systemperspektiv och visar hur olika egenskaperoch situationer påverkar den tid som patienten bearbetas på akuten. Detta uppmärksammar eventuella problem och kan därför vara användbart för attförbättra det kliniska beslutsfattandet.
Fem olika modeller: CPH, RSF, GB,XGB och DeepSurv användes och utvärderades med hjälp av C-index där GBvar den bäst presterande modellen med ett C-index på 0.7825 vilket visar attmaskininlärningsmetoderna kan prestera bättre än den klassiska och vanligtförekommande CPH modellen. Modellerna förklarades sedan med hjälp utavSHAP värden där vikten utav de olika variablerna visades tillsammmans med deras påverkan. SHAP visade även att GB modellen hanterade icke-linjäriteten bättre än CPH modellen. De fem viktigaste variablerna som påverkade vistelsens längd till intagning var om patienten blev scannad påakutmottagningen, om de blev mottagna i ett akutrum, ålder, triagenivå ochvilket medicinskt team som ansågs bäst lämpat för patienten. Detta är kliniskinformation som skulle kunna implementeras genom beslutsfattande för attminska trängseln på akuten. Dessa resultat visar att maskininlärningsmetoderför överlevnadsanalys kan användas för vidare undersökning angående de logistiska utmaningar som sjukvården står inför och kan även användas ytterligareför datanalys med produktionsdata i liknande fall. Processen med överlevnadsanalys och ML kan även användas för vidare analys och kan agera som ett förstasteg för att framhäva viktig information i datan som skulle vara intressant fördjupare data analys. Detta skulle kunna göra processen mer effektiv.
Place, publisher, year, edition, pages
2023. , p. 80
Series
TRITA-CBH-GRU ; 2023:046
Keywords [en]
SHAP, Explainable AI, Survival Analysis, LOS, Machine Learning, ED Crowding
Keywords [sv]
SHAP, Förklarbar AI, Överlevnadsanalys, LOS, Maskininlärning, Överbelastning på Akuten
National Category
Medical Engineering Computer Sciences Information Systems
Identifiers
URN: urn:nbn:se:kth:diva-329329OAI: oai:DiVA.org:kth-329329DiVA, id: diva2:1770583
Educational program
Master of Science in Engineering - Medical Engineering
Supervisors
Examiners
2023-06-202023-06-192024-09-23Bibliographically approved