Natural Language Processing of Primary Care Data for Early Detection of Colorectal Cancer
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Naturlig språkbehandling av primärvårdsdata för tidig upptäck av kolorektal cancer (Swedish)
Abstract [en]
Early cancer detection is pivotal for improving treatment outcomes and reducing the impact on society. This thesis explores the potential of natural language processing (NLP) techniques to enhance the early detection of colorectal cancer by leveraging primary care data from electronic health records in Sweden. By harnessing the information contained within physician notes, the aim is to develop an NLP model capable of identifying subtle patterns indicative of early-stage cancer, which may be overlooked by human perception. NLP techniques, including Topic Modeling, Named Entity Recognition (NER), and Text Classification, are employed to extract relevant features from the physician notes. The features are then incorporated into existing algorithms to evaluate their impact on cancer detection performance. Additionally, the study assesses the effectiveness of clinical notes for cancer detection three months prior to the diagnosis date, and explores the suitability of existing Swedish language models for text classification of clinical language data.
While the study encountered limitations related to data quality, quantity, and project timeframe constraints, the results demonstrate the potential of NLP for cancer detection. Clinical notes were successfully transformed into machine learning features, resulting in improved performance across most metrics. The utilization of clinical notes for cancer detection three months prior to the diagnosis date also increased performance across most metrics, albeit with lower overall predictive power due to the absence of strongly correlated symptoms during that period. The findings suggest that NLP could serve as a valuable source of information for machine learning models in cancer detection, as highly relevant information is present in the analyzed clinical notes. However, the current performance metrics indicate that further refinement and the acquisition of additional data are necessary before the developed models can be deemed suitable for clinical implementation.
Abstract [sv]
Tidig upptäckt av cancer är avgörande för att förbättra patientens prognos och minska påverkan på samhället. Detta arbete utforskar potentialen av naturlig språkbehandlingsteknik (NLP) för att facilitera tidig upptäckt av kolorektal cancer med primärvårdsdata från elektroniska journaler i Sverige. Genom att tillvarata informationen i patientjournalerna är målet att utveckla en NLP-modell som kan identifiera subtila mönster som tyder på tidig cancer, vilka kan förbises av mänsklig perception. Informationen extraheras från patientjournalerna med NLP-teknikerna Temamodellering (Topic Modeling), Named Entity Recognition (NER) och Textklassificering. Informationens inverkan på prestandan för cancerdetektering utvärderas sedan i befintliga algoritmer. För att simulera realistiska kliniska tillstånd utvärderades modellen även med en mindre mängd data, där information tre månader före diagnos uteslöts. Slutligen utforskar arbetet befintliga svenska språkmodeller för textklassificering av kliniskt språk.
Trots begränsningar relaterade till datakvalitet, kvantitet och projektets tidsram, visar resultaten potentialen av NLP för cancerdetektering. Informationen extraherades framgångsrikt ur de kliniska anteckningarna, vilket resulterade i en ökad prestanda för de flesta mätvärdena. Användningen av kliniska anteckningar för cancerdetektering tre månader före diagnosdatum ökade också prestandan av de flesta mätvärden, även om den övergripande prediktiva kraften var lägre på grund av att starkt korrelerade symtom var frånvarande under den perioden. Resultaten tyder på att NLP kan utgöra en värdefull informationskälla för maskininlärningsmodeller vid cancerdetektering, då högst relevant information återfanns i de kliniska anteckningarna. De nuvarande prestandamåtten indikerar dock att ytterligare vidareutveckling och en större datamängd är nödvändig innan eventuell klinisk implementering.
Place, publisher, year, edition, pages
2024. , p. 83
Series
TRITA-CBH-GRU ; 2024:116
Keywords [en]
NLP, Colorectal Cancer, Topic Modeling, NER, Text Classification
Keywords [sv]
NLP, Kolorektalcancer, Temamodellering, NER, Textklassificering
National Category
Medical Engineering Cancer and Oncology Natural Language Processing
Identifiers
URN: urn:nbn:se:kth:diva-352824OAI: oai:DiVA.org:kth-352824DiVA, id: diva2:1895835
External cooperation
Regionalt Cancercentrum Stockholm Gotland
Subject / course
Medical Engineering
Educational program
Master of Science in Engineering - Medical Engineering
Supervisors
Examiners
2024-09-192024-09-072025-02-01Bibliographically approved