Machine learning methods for mortality prediction
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Maskininlärningsmetoder för förutsägelse av dödlighet (Swedish)
Abstract [en]
The mortality of patients in the ICU is of great concern, with many deaths each year caused by organ failure. To objectively describe the degree of organ failure, a scoring system called the SOFA scores was developed in 1994 and is still being used to this day. This scoring system has not been adjusted to reflect changes in modern ICU therapies, and daily SOFA score trajectories are not being consistently tracked. Recent research at the Karolinska Institutet (KI), Stockholm investigates how the SOFA scoring system can be improved, and this thesis contributes to this line of research by using machine learning models trained on SOFA scores and the underlying measurement of the scores to predict the mortality of patients and to find the most significant features used by the model to make its prediction. Three models were used to predict the ICU patients’ mortality: Random Forest, XGBoost, and an LSTM model, which were evaluated on historical data from KI. The results of the model evaluation demonstrated that LSTM was the superior model. The LSTM model was then tested on four datasets, two including the SOFA scores, one from the dataset provided by KI, and one created from the MIMIC III dataset. The results of this demonstrated that the LSTM model trained on SOFA scores from KI could generalize to the external MIMIC III dataset with performance matching that of related work. The results also demonstrated that the model trained on the underlying measurements had better performance than when trained on the SOFA scores, indicating that the SOFA scoring system could be improved. The most significant features of the model were found using the explainable machine learning techniques, SHAP and L2X, which had similar results for many features, with Glasgow Coma Scale (GCS), Norepinephrine, Mean Arterial Pressure (MAP), and age having a high impact on the models’ predictions. The results of this work could help KI get an insight into how much the SOFA scoring system can be improved and what possible improvements can be made to the currently used system.
Abstract [sv]
Mortaliteten hos patienter på intensivvårdsavdelningen är mycket oroande, och många dödsfall varje år orsakas av organsvikt. För att objektivt beskriva graden av organsvikt utvecklades 1994 ett poängsystem som kallas SOFApoäng som än idag används. Detta poängsystem har inte justerats för att återspegla förändringar i moderna intensivvårdsbehandlingar, och dagliga SOFA-poängkurvor spåras inte konsekvent. Ny forskning vid KI, Stockholm undersöker hur SOFA-poängsystemet kan förbättras, och denna avhandling bidrar till denna forskningslinje genom att använda maskininlärningsmodeller som tränats på SOFA-poäng och den underliggande mätningen av poängen för att förutsäga dödligheten hos patienter och för att hitta de viktigaste funktionerna som används av modellen för att göra sin förutsägelse. Tre modeller användes för att förutsäga intensivvårdspatienternas dödlighet: Random Forest, XGBoost och en LSTM-modell, som utvärderades på historiska data från KI. Resultaten av modellutvärderingen visade att LSTM var den överlägsna modellen. LSTM-modellen testades sedan på fyra dataset, två inklusive SOFA-poängen, ett från datasetet från KI och ett skapat från MIMIC III-datasetet. Resultaten visade att LSTMmodellen som tränats på SOFA-poäng från KI kunde generaliseras till den externa MIMIC III-datauppsättningen med prestanda som matchade den i relaterat arbete. Resultaten visade också att modellen som tränats på de underliggande mätningarna hade bättre prestanda än när den tränades på SOFA-poängen, vilket tyder på att SOFA-poängsystemet kan förbättras. De viktigaste egenskaperna i modellen hittades med hjälp av de förklarbara maskininlärningsteknikerna SHAP och L2X, som gav liknande resultat för många egenskaper, där GCS, noradrenalin, MAP och ålder hade stor inverkan på modellernas förutsägelser. Resultaten av detta arbete kan hjälpa KI att få en inblick i hur mycket SOFA:s poängsystem kan förbättras och vilka möjliga förbättringar som kan göras i det system som används idag.
Place, publisher, year, edition, pages
2024. , p. 44
Series
TRITA-EECS-EX ; 2024:560
Keywords [en]
Mortality Classification, LSTM, L2X, SHAP, Explainable machine learning
Keywords [sv]
Mortalitetsklassificering, LSTM, L2X, SHAP, Förklarbar maskininlärning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-359692OAI: oai:DiVA.org:kth-359692DiVA, id: diva2:1935825
Educational program
Master of Science - Machine Learning
Supervisors
Examiners
2025-02-102025-02-072025-02-10Bibliographically approved