Deep learning approaches for denoising, artifact correction, and radiology report generation in CT and chest X-ray imaging
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Medical imaging is a cornerstone of modern healthcare delivery, providing essential insights for effective diagnosis and treatment planning. Among the myriad imaging modalities, computed tomography (CT) and chest X-rays stand out for their widespread clinical use with approximately 400 million CT and 1.4 billion chest X-ray examinations are performed globally each year. Recent advancements in detector technology have given rise to photon-counting CT, which promises improved spatial and energy resolution along with enhanced low-dose imaging capabilities. However, elevated image noise and ring artifacts–stemming from higher spatial and energy resolution and inconsistencies in detector elements–pose significant hurdles, degrading image quality and complicating the diagnostic process. Beyond CT imaging, the volume of chest X-ray examinations continues to grow, placing increasing pressure on radiology departments that are already stretched thin. Moreover, advanced and innovate techniques in CT leads to a steady increase in the number of images that the radiologist are required to read, further exacerbating the workloads. To address these challenges, this thesis leverages generative artificial intelligence methods throughout the medical imaging value chain. For photon-counting CT imaging, this thesis address inverse problems using diffusion and Poisson flow models. Syn2Real synthesizes realistic ring artifacts to effciently generate training data for deep learning-based artifact correction. For image denoising, the thesis introduces methods that capitalize on the robustness of PFGM++ in supervised and unsupervised versions of posterior sampling Poisson flow generative models, and finally culminating in Poisson flow consistency models—a novel family of deep generative models that combines the robustness of PFGM++ with the effcient single-step sampling and the flexibility of consistency models. Moreover, this thesis works towards addressing the global shortage of radiologists, by improving medical vision-language models through CheXalign: a novel framework that leverages publicly available datasets, containing paired chest X-rays and radiology reports written in a clinical setting, and reference-based metrics to generate high quality preference data. This in turns enables the application of direct alignment algorithms that increase the probability of good reports, while decreasing the probability of bad ones, improving the overall results. Partial automation of chest X-ray radiology report generation—in which language models are used to draft initial reports—hold great promise for more effcient workflows, reducing burn-out, and allowing radiologists to allocate more time to more advanced imaging studies, such as photon-counting CT.
Abstract [sv]
Medicinsk avbildning är en hörnsten i den moderna sjukvården och ger avgörande insikter för e!ektiv diagnos och behandlingsplanering. Bland de många bildbehandlingsmetoderna utmärker sig datortomografi (CT) och lungröntgen för sin utbredda kliniska användning, där årligen cirka 400 miljoner CT-undersökningar och 1,4 miljarder lungröntgenundersökningar utförs globalt. Nya framsteg inom detektorteknik har lett till utvecklingen av fotonuppräknande CT, vilket lovar förbättrad rumslig och energiresolution samt förbättrade möjligheter för lågdosavbildning. Emellertid utgör förhöjt bildbrus och ringartifakter—till följd av högre rumslig och energiresolution samt inkonsekvenser i detektorelement—betydande hinder, vilket försämrar bildkvaliteten och komplicerar den diagnostiska processen. Utöver CT-avbildning fortsätter volymen av lungröntgenundersökningar att öka, vilket sätter ytterligare press på redan överbelastade radiologiavdelningar. Dessutom leder avancerade och innovativa tekniker inom CT till en stadig ökning av antalet bilder som radiologerna måste tolka, vilket ytterligare förvärrar arbetsbelastningen. För att möta dessa utmaningar utnyttjar denna avhandling generativa metoder inom artificiell intelligens genom hela värdekedjan för medicinsk avbildning. För fotonuppräknande CT-avbildning behandlar avhandlingen inversa problem med hjälp av diffusions- och Poisson-flödesmodeller. Syn2Real syntetiserar realistiska ringartifakter för att e!ektivt generera träningsdata för djupinlärnings-baserad artefaktkorrigering. För brusreducering i bilder introducerar avhandlingen metoder som utnyttjar robustheten hos PFGM++ i både övervakade och icke-övervakade versioner av posterior sampling Poisson-flödes generativa modeller, vilket kulminerar i Poisson-flödes konsistensmodeller—en ny familj av djupa generativa modeller som kombinerar robustheten hos PFGM++ med effektiv enkelsagsprovtagning och flexibiliteten hos konsistensmodeller. Dessutom arbetar denna avhandling för att tackla den globala bristen på radiologer genom att förbättra medicinska vision-språkmodeller med hjälp av CheXalign: ett nytt ramverk som utnyttjar o!entligt tillgängliga dataset, innehållande parade lungröntgenbilder och radiologiska rapporter skrivna i en klinisk miljö, samt referensbaserade mått för att generera högkvalitativ preferensdata. Detta möjliggör i sin tur tillämpningen av direkta justeringsalgoritmer som ökar sannolikheten för goda rapporter samtidigt som sannolikheten för dåliga minskar, vilket förbättrar de övergripande resultaten. Delvis automatisering av genereringen av lungröntgenrapporter—där språkmodeller används för att utarbeta initiala rapporter—lovar stora möjligheter till e!ektivare arbetsflöden, minskad utbrändhet och att radiologerna kan avsätta mer tid för mer avancerade avbildningsstudier, såsom fotonuppräknande CT.
Place, publisher, year, edition, pages
Universitetsservice US-AB, Sweden 2025 , 2025.
Series
TRITA-SCI-FOU ; 2025:29
Keywords [en]
CT, photon-counting CT, chest X-rays, diffusion models, PFGM++, large language models, vision-language models, post-training, reinforcement learning from human feedback, direct alignment algorithms
Keywords [sv]
CT, fotonräknande CT, lugnröntgen, diffusionsmodeller, PFGM++, stora språkmodeller, vision-språkmodeller, efterträning, förstärkningsinlärning från mänsklig feedback, direktjusteringsalgoritmer
National Category
Radiology and Medical Imaging Other Physics Topics
Research subject
Physics, Biological and Biomedical Physics
Identifiers
URN: urn:nbn:se:kth:diva-363233ISBN: 978-91-8106-316-5 (print)OAI: oai:DiVA.org:kth-363233DiVA, id: diva2:1957256
Public defence
2025-06-05, FD5, Roslagstullsbacken 21, Stockholm, 09:15 (English)
Opponent
Supervisors
Note
QC 2025-05-09
2025-05-092025-05-082025-05-09Bibliographically approved
List of papers