Questionnaire-based Machine Learning for medical triage systems: Leveraging Machine Learning models to define the outcome of unfinished interviews
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Frågeformulärsbaserad maskininlärning för system för medicinsk triagering : Utnyttja maskininlärningsmodeller för att definiera resultatet av oavslutade intervjuer (Swedish)
Abstract [en]
With the emergence of digital health solutions, healthcare delivery has significantly transformed. One notable advancement of this digital revolution is remote triage, which can mitigate healthcare resource shortages, improve patient care, and enhance service accessibility.
Triage24, Platform24's e-triage solution, guides patients to appropriate care levels through a questionnaire-based system across Sweden. While integrated with the ’regions healthcare and serving thousands of patients annually, Triage24 experiences the challenge of handling incomplete triage interviews. Being a deterministic model, Triage24 cannot assist patients who have not completed the interview process. To mitigate this problem, the study investigates the potential applicability of Machine Learning (ML) to predict the outcomes of these unfinished interviews, aiming to enhance patient care and service quality.
Predicting triage outcomes from incomplete data is a significant problem due to its impact on patient safety and healthcare efficiency. The challenge lies in handling diverse data with missing values and transforming it into an ML-friendly format, which complicates model training and accuracy. Despite existing research on ML models for healthcare diagnostics, a unified approach to triage prediction and questionnaire-based ML remains undeveloped, underscoring the originality and complexity of this study.
The methodology involved data anonymisation, transformation, and exploratory analysis to prepare a dataset of ≈4 million records. Various ML and Deep Learning (DL) models, including decision trees and advanced architectures like TabTransformer, were evaluated for their performance on sparse data.
Key findings revealed that decision-tree models, particularly LGBMClassifier and CatBoostClassifier, outperformed others in predicting triage outcomes from incomplete interviews, with over 80% accuracy. The TabTransformer model demonstrated exceptional accuracy (>99.9%) but required extensive training time, suggesting the need for more powerful computational resources. The study also highlighted the linear correlation between interview completeness and model predictive power.
This research advances ML systems in medical triage, enabling the prediction of outcomes from incomplete interviews. Integrating these models into existing triage systems can improve patient care by providing preliminary results and identifying urgent cases from incomplete data. Future work should focus on optimising data processing, exploring advanced model architectures, and developing interpretable model explanations to enhance trust and acceptance among healthcare practitioners and patients.
Abstract [sv]
I och med framväxten av digitala hälsolösningar har vården förändrats avsevärt. Ett viktigt framsteg i denna digitala revolution är triage på distans, som kan minska bristen på vårdresurser, förbättra patientvården och öka tillgängligheten till tjänsterna.
Triage24, Platform24:s e-triage-lösning, guidar patienter till rätt vårdnivå genom ett frågebaserat system i hela Sverige. Samtidigt som Triage24 är integrerat med regionens sjukvård och betjänar tusentals patienter varje år, upplever Triage24 utmaningen att hantera ofullständiga triageintervjuer. Eftersom Triage24 är en deterministisk modell kan den inte hjälpa patienter som inte har slutfört intervjuprocessen. För att mildra detta problem undersöker studien den potentiella tillämpligheten av Machine Learning (ML) för att förutsäga resultaten av dessa oavslutade intervjuer, i syfte att förbättra patientvården och servicekvaliteten.
Att förutsäga triageresultat utifrån ofullständiga data är ett stort problem eftersom det påverkar patientsäkerheten och effektiviteten inom sjukvården. Utmaningen ligger i att hantera olika data med saknade värden och omvandla dem till ett \ gls{ML}-vänligt format, vilket komplicerar modellutbildning och noggrannhet. Trots befintlig forskning om ML-modeller för sjukvårdsdiagnostik är ett enhetligt tillvägagångssätt för triageprediktion och frågeformulärsbaserad ML fortfarande outvecklat, vilket understryker originaliteten och komplexiteten i denna studie.
Metoden omfattade anonymisering, omvandling och explorativ analys av data för att förbereda ett dataset med ≈4 miljoner poster. Olika ML- och Deep Learning (DL)-modeller, inklusive beslutsträd och avancerade arkitekturer som TabTransformer, utvärderades för deras prestanda på glesa data.
De viktigaste resultaten visade att beslutsträdsmodeller, särskilt LGBMClassifier och CatBoostClassifier, överträffade andra modeller när det gällde att förutsäga triageringsresultat från ofullständiga intervjuer, med över 80 procents noggrannhet. TabTransformer-modellen uppvisade exceptionell träffsäkerhet (>99%) men krävde omfattande träningstid, vilket tyder på att det behövs mer kraftfulla beräkningsresurser. Studien belyste också det linjära sambandet mellan intervjuns fullständighet och modellens prediktiva förmåga.
Denna forskning främjar ML-system inom medicinsk triage, vilket möjliggör förutsägelse av resultatet från ofullständiga intervjuer. Att integrera dessa modeller i befintliga triagesystem kan förbättra patientvården genom att tillhandahålla preliminära resultat och identifiera brådskande fall från ofullständiga data. Framtida arbete bör fokusera på att optimera databehandling, utforska avancerade modellarkitekturer och utveckla tolkningsbara modellförklaringar för att öka förtroendet och acceptansen bland vårdpersonal och patienter.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 63
Series
TRITA-EECS-EX ; 2024:454
Keywords [en]
Machine Learning, Digital Health, Questionnaire-Based Systems, Sparse Data, Decision Trees
Keywords [sv]
Maskininlärning, Digital Hälsa, Frågeformulärsbaserade System, Beslutsträd
National Category
Software Engineering Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351537OAI: oai:DiVA.org:kth-351537DiVA, id: diva2:1887658
External cooperation
Platform24 AB
Supervisors
Examiners
2024-09-202024-08-082024-09-20Bibliographically approved