kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Probabilistic dose prediction using mixture density networks for automated radiation therapy treatment planning
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics. RaySearch Laboratories, Stockholm, Sweden.ORCID iD: 0000-0001-5740-5103
RaySearch Laboratories, Stockholm, Sweden..
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics. RaySearch Laboratories, Stockholm, Sweden..ORCID iD: 0000-0001-6724-2547
Iridium Cancer Network, Antwerp, Belgium..
Show others and affiliations
2021 (English)In: Physics in Medicine and Biology, ISSN 0031-9155, E-ISSN 1361-6560, Vol. 66, no 5, article id 055003Article in journal (Refereed) Published
Abstract [en]

We demonstrate the application of mixture density networks (MDNs) in the context of automated radiation therapy treatment planning. It is shown that an MDN can produce good predictions of dose distributions as well as reflect uncertain decision making associated with inherently conflicting clinical tradeoffs, in contrast to deterministic methods previously investigated in the literature. A two-component Gaussian MDN is trained on a set of treatment plans for postoperative prostate patients with varying extents to which rectum dose sparing was prioritized over target coverage. Examination on a test set of patients shows that the predicted modes follow their respective ground truths well, both spatially and in terms of their dose-volume histograms. A special dose mimicking method based on the MDN output is used to produce deliverable plans and thereby showcase the usability of voxel-wise predictive densities. Thus, this type of MDN may serve to support clinicians in managing clinical tradeoffs and has the potential to improve the quality of plans produced by an automated treatment planning pipeline.

Place, publisher, year, edition, pages
Institute of Physics (IOP), 2021. Vol. 66, no 5, article id 055003
Keywords [en]
mixture density network, dose prediction, dose mimicking, knowledge-based planning, deep learning, radiation therapy treatment planning
National Category
Probability Theory and Statistics
Identifiers
URN: urn:nbn:se:kth:diva-291992DOI: 10.1088/1361-6560/abdd8aISI: 000618026500001PubMedID: 33470973Scopus ID: 2-s2.0-85101304527OAI: oai:DiVA.org:kth-291992DiVA, id: diva2:1540433
Note

QC 20210329

Available from: 2021-03-29 Created: 2021-03-29 Last updated: 2025-11-21Bibliographically approved
In thesis
1. Probabilistic machine learning methods for automated radiation therapy treatment planning
Open this publication in new window or tab >>Probabilistic machine learning methods for automated radiation therapy treatment planning
2021 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

In this thesis, different parts of an automated process for radiation therapy treatment planning are investigated from a mathematical and computational perspective. Whereas traditional inverse planning is labor-intensive, often comprising several reiterations between treatment planner and physician before a plan can be approved, much of recent research have been aimed at using a data-driven approach by learning from historically delivered plans. Such an automated planning pipeline is commonly divided into a first part of predicting achievable values of dose-related quantities, and a second part of finding instructions to the treatment machine mimicking as best as possible the predicted values. Challenges associated with this type of prediction–mimicking workflow exist, however—for example, in typical applications, patient data is high-dimensional, scarce and has relatively low signal-to-noise ratio due to inter-planner variations, and significant information may be lost in the transition between prediction and mimicking.

We propose to address these challenges through better probabilistic modeling of the predictive inferences of dose-related quantities and increased accuracy of the optimization functions used for dose mimicking. In particular, starting with the disconnect between conventional planning objectives and evaluation metrics, in the first paper, we establish a framework for handling dose statistics as optimization function constituents. Subsequently, in the second and fourth papers, we present ways of predicting spatial dose and dose statistics, respectively, in a probabilistically rigorous fashion, the latter application relying on the similarity-based mixture-of-experts model developed in the third paper. As a nonparametric Bayesian regression model, equipped with a mean-field and stochastic variational inference algorithm, this mixture-of-experts model is suitable for managing complex input–output relationships and skewed or multimodal distributions. The second and fourth papers also introduce dose mimicking objectives able to leverage predictive distributions of spatial dose and dose statistics. In the fifth paper, we further build upon the probabilistic paradigm, merging the fields of multicriteria optimization and automated planning to create a semiautomatic alternative workflow in which certain manual intervention is possible. Lastly, in the sixth paper, we present a means of incorporating robustness against geometric uncertainties into an automated planning pipeline.

Abstract [sv]

I denna avhandling studeras olika delar av en automatiserad process för strålterapiplanering från ett matematiskt och beräkningsmässigt perspektiv. Medan traditionell inversplanering är arbetsintensiv och ofta kräver upprepade iterationer mellan planerare och läkare, har mycket forskning på senare tid fokuserat på utvecklandet av datadrivna tillvägagångssätt baserade på inlärning från historiskt levererade planer. En sådant automatiserat arbetsflöde delas ofta upp i en första del av att först predicera uppnåeliga värden av dosrelaterade storheter och i en andra del av att bestämma de instruktioner till behandlingsmaskinen som bäst rekonstruerar de predicerade värdena. Emellertid finns utmaningar kopplade till denna typ av prediktion–rekonstruktion-flöde – exempelvis är patientdata i typiska tillämpningar högdimensionell, sällsynt och har relativt lågt signal--brus-förhållande, och väsentlig information kan gå förlorad i övergången mellan prediktion och rekonstruktion.

Vi föreslår att hantera dessa utmaningar genom förbättrade probabilistiska prediktionsmodeller för dosrelaterade storheter och ökad noggrannhet hos de optimeringsfunktioner som används vid dosrekonstruktion. Med utgång i diskrepansen mellan konventionella planeringsmålfunktioner och evalueringsmått etablerar vi i den första artikeln ett ramverk för att hantera dosstatistikor som beståndsdelar i optimeringsfunktioner. Vi presenterar sedan i den andra och den fjärde artikeln sätt att predicera spatial dos respektive dosstatistikor på ett probabilistiskt rigoröst sätt, varav det senare genom den likhetsbaserade mixture-of-experts-modell som utvecklas i den tredje artikeln. Som en ickeparametrisk bayesiansk regressionsmodell, försedd med tillhörande medelfälts- och stokastisk variationsinferensalgoritm, är denna mixture-of-experts-modell väl lämpad för att hantera komplexa indata–utdata-relationer och skeva eller multimodala fördelningar. Den andra och den fjärde artikeln introducerar också dosrekonstruktionsmålfunktioner som kan dra nytta av prediktiva fördelningar av spatial dos och dosstatistikor. I den femte artikeln bygger vi vidare på den probabilistiska paradigmen och förenar flermålsoptimering med automatisk planering för att skapa ett semiautomatiskt alternativt arbetsflöde, där viss manuell interaktion är möjlig. Slutligen presenterar vi i den sjätte artikeln ett sätt att ta hänsyn till robusthet med avseende på geometriska osäkerheter i ett automatiskt planeringsflöde.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2021. p. 201
Series
TRITA-SCI-FOU ; 2021;51
National Category
Probability Theory and Statistics
Research subject
Applied and Computational Mathematics, Mathematical Statistics
Identifiers
urn:nbn:se:kth:diva-305188 (URN)978-91-8040-090-9 (ISBN)
Public defence
2021-12-15, Sal F3 och via Zoom: https://kth-se.zoom.us/j/68119542297, Lindstedtsvägen 26, Stockholm, 14:00 (English)
Opponent
Supervisors
Available from: 2021-11-23 Created: 2021-11-22 Last updated: 2022-06-25Bibliographically approved
2. On large deviations in probabilistic deep learning and generative modeling
Open this publication in new window or tab >>On large deviations in probabilistic deep learning and generative modeling
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

The topic of this thesis is the use of probabilistic methods in machine learning. These play a foundational role in motivating and defining machine learning algorithms, as well as in explaining why, and how well, the algorithms work. During the years in which this work was conducted (2020-2025), machine learning has gone from delivering a handful of impressive demonstrable results to becoming a staple of modern developed society, with products such as ChatGPT, etc., having capacity and applicability far beyond what anyone in the field expected ten years ago. Explaining why the modern methods work so well, despite their conceptual simplicity and elegance, requires both empirical and theoretical studies. This thesis has both parts, while the emphasis is on theory. The first part of the thesis, Papers A-C, concerns the implementation and analysis of novel methodologies in deep learning, whereas Papers D-F concern purely theoretical large deviations results for machine learning adjacent models. The main thread is the application of mathematical tools from probability theory and statistics, such as the theory of large deviations and empirical process theory, to the understanding and improvement of machine learning methodology.

In Paper A, which presents the most applied direction pursued in the thesis, a deep probabilistic network model is applied to a task from the field of clinical radiation therapy, namely dose prediction, where a value of radiation dose target shall be assigned to each pixel/voxel of a human tissue based on a CT-image. The developed probabilistic model is based on mixture density networks. It is empirically demonstrated that a convolutional U-net can learn a satisfactory mixture distribution in each pixel. To the best of our knowledge, this is the first implementation of mixture density networks working on images with a convolutional architecture.

In Paper B, we construct and implement a new method called REMEDI for entropy estimation of continuous distributions using deep neural networks. Further, using empirical process theory, it is shown that such an estimator has a consistency property, ensuring that it has the theoretical capacity to estimate the entropy to arbitrary precision. The method is based on the celebrated Donsker-Varadhan lemma, a well-known fact from the theory of large deviations. The applicability of the method is demonstrated on distributions in moderate dimension, as well as on the task of training model in the information bottleneck framework, with satisfactory performance.

In Paper C, we explore the integration of non-parametric model components into the flow-matching framework. This is done by learning a heavily compressed latent representation of images in the training dataset, which are then used as conditioning variables for the vector field network. Effectively, these can be seen as synthetic, continuous labels. The gain is a more efficient learning process, compared to baseline models, and more interpretable sampling. It is demonstrated that with sufficient compression, overfitting can be avoided, and diversity among samples attained, despite conditioning on training samples.

Arguably, the most impactful area in machine learning is generative modeling. One part of the thesis deals with applying the theory of large deviations to two of its major methods, generative adversarial networks (GAN), and diffusion models, in particular Schrödinger bridges. The goal here is to prove large deviation principles, for certain sequences of probability measures associated with the models. In both cases, this allows a strong characterization of the convergence of these models, under varying certain model parameters, toward an idealized description of their behavior, often carrying a well-understood mathematical structure. In Schrödinger bridges, this idealized limit model consists of a dynamical optimal transport plan. This tells us that when varying the parameter in question, which is the reference noise level, or, as is often equivalent, the level of entropic regularization, the plans converge rapidly toward optimal transport behavior, justifying the interpretation of weakly regularized Schrödinger bridges as approximate optimal transport plans. Since Schrödinger bridges (or entropically regularized optimal transport plans) have nicer computational properties than optimal transport, they are often used in its place, and it is therefore important to understand how close this connection is. The large deviation principles derived here, applicable to several popular deep generative models, thus contribute to this understanding. Stating and proving such large deviations results are the contents of Papers E and F.

For GANs, we consider recently developed particle systems making up cohorts of networks for the generative task, in Paper D. Here, we show that when the parameter is taken to be the number of particles in this system, the training dynamics of these networks converge toward a McKean-Vlasov process, and a large deviation principle is established. This enables the study of the convergence of such particle systems, which have recently been proposed as a new generative model in the GAN literature, toward their mean-field behavior using the theory of large deviations.

Abstract [sv]

Denna avhandling avser användandet av probabilistiska metoder inom maskininlärnining. Dessa spelar en grundläggande roll i att motivera och definiera maskininlärningsalgoritmer, såväl som att förklara varför dessa algoritmer fungerar, och hur väl de fungerar. Under åren som detta arbete utfördes (2020-2025) har maskininlärning gått från att leverera en handfull av imponerande och demonstrerbara resultat, till att bli en stapelvara av det moderna utvecklade samhället, med produkter som ChatGPT, etc., med kapacitet och tillämpbarhet bortom vad någon i fältet hade förväntat sig för tio år sedan. Att förklara varför de moderna metoderna fungerar såväl, trots deras konceptuella simplicitet och elegans, kräver både empiriska och teoretiska studier. Denna avhandling har båda delar, medan betoningen är på teori. Den första delen av avhandlingen, Artiklar A-C, berör implementation och analys av nya metodologier i djupinlärning, medan Artiklar D-F berör rent teoretiska stora avvikelse-resultat för modeller som ligger nära maskininlärning. Den huvudsakliga tråden är tillämpningen av matematiska verktyg från sannolikhetsteori och statistik, såsom teorin för stora avvikelser och empirisk processteori, till att förstå och förbättra metodologi inom maskininlärning.

I Artikel A, vilken utgör den mest tillämpade riktningen i denna avhandling, appliceras en probabilistisk djup nätverksmodell till en uppgift från fältet av klinisk strålningsterapi, nämligen dosprediktion, där ett målvärde av strålningsdos ska tilldelas varje pixel/voxel av en mänsklig vävnad baserat på en CT-bild. Den utvecklade probabilistiska modellen är baserad på mixturdensitetsnätverk. Empiriskt demonstreras att ett faltningsbaserat U-net kan lära sig en tillfredsställande mixturdistribution över dosen i varje pixel. Så vitt vi vet är detta den första implementationen av mixturdensitetsnätverk som verkar på bilder med en faltningsarkitektur.

I Artikel B, konstrueras och implementeras en ny metod kallad REMEDI för entropiestimering av kontinuerliga distributioner med hjälp av djupa neurala nätverk.    Dessutom visas, med hjälp av empirisk processteori, att en sådan estimator har en konsistensegenskap, vilket försäkrar oss om att den har teoretisk kapacitet att estimera entropin till godtycklig precision. Metoden baseras på det bejublade Donsker-Varadhan-lemmat, ett välkänt resultat ifrån teorin för stora avvikelser. Tillämpbarheten av metoden demonstreras på distributioner i moderat dimension, såväl som för modellträning inom informations-flaskhalsramverket, med tillfredsställande prestanda.

I Artikel C utforskas integrationen av icke-parametriska modellkomponenter i flödes-matchningsramverket. Detta görs genom a lära sig en tungt komprimerad latent representation av bilder i träningsdatamängden, som sedan används som betingningsvariabler för vektorfältsnätverket. Dessa kan effektivt betraktas som syntetiska, kontinuerliga klassvariabler. Vinsten är en mer effektiv inlärningsprocess jämför med baslinjemodeller, samt mer tolkningsbar slumpgenerering. Det demonstreras att, med tillräcklig komprimering, kan överträning undvikas, och mångfald bland slumpgenererade exempel uppnås, trots att betingningen på träningsexempel.

Det kan argumenteras för att den mest betydelsefulla fältet inom maskininlärning är generativ modellering. En del av denna avhandling handlar om att tillämpa teorin för stora avvikelser på två av dess huvudsakliga metoder, generativa motstående nätverk (GAN) och diffusionsmodeller, särskilt Schrödingerbroar. Målet här är att bevisa stora avvikelseprinciper för särskilda sannolikhetsmått associerade med modellerna. I båda fallen tillåter detta en stark karaktärisering av konvergensen a dessa modeller, när särskilda modellparametrar varieras, mot en idealiserad beskrivning av deras beteende, som ofta bär en välförstådd matematisk struktur.

Inom Schrödingerbroar består denna idealiserade gränsmodell av en dynamisk optimal transportplan. Detta säger oss att när parametern i fråga varieras, vilken är brusnivån av referensen, eller som ofta är ekvivalent, nivån av entropisk regularisering, konvergerar planerna snabbt mot optimal transportbeteende, vilket rättfärdigar tolkningen av svagt regulariserade Schrödingerbroar som approximativa optimala transportplaner. Eftersom Schrödingerbroar (eller entropiskt regulariserade optimala transportplaner) har trevligare beräkningsmässiga egenskaper än optimal transport, används de ofta i dess plats, och det är därför viktigt att förstå hur nära denna koppling är. Den härledda stora avvikelseprincipen, som är tillämpbar på många populära djupa generativa modeller, bidrar därför till denna förståelse. Att formulera och bevisa sådana stora avvikelseprinciper är innehållet i Artikel E och Artikel F.

För GAN-modeller betraktar vi nyligen utvecklade partikelsystem, som utgör kohorter av nätverk för den generativa uppgiften, i Artikel D. Här visar vi att när parametern tas till att vara antalet partiklar i systemet, konvergerar träningsdynamiken av dessa nätverk mot en McKean-Vlasov process, och en stor avvikeleprincip etableras. Detta möjliggör studien av konvergensen för sådana partikelsystem, som nyligen har framlagts som en ny generativ model i GAN-litteraturen, mot deras medelfältsteoretiska beteende med hjälp av teorin för stora avvikelser.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025
Series
TRITA-SCI-FOU ; 2025:59
Keywords
Large deviations, Generative models, Schrödinger bridges, Optimal transport, Machine learning, Stora avvikelser, Generativa modeller, Schrödingerbroar, Optimal transport, Maskininlärning
National Category
Probability Theory and Statistics
Research subject
Mathematics
Identifiers
urn:nbn:se:kth:diva-373185 (URN)978-91-8106-438-4 (ISBN)
Public defence
2025-12-11, Kollegiesalen, Brinellvägen 8, Stockholm, 14:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 67105
Note

QC 2025-11-21

Available from: 2025-11-21 Created: 2025-11-21 Last updated: 2025-12-02Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textPubMedScopus

Authority records

Nilsson, ViktorZhang, Tianfang

Search in DiVA

By author/editor
Nilsson, ViktorZhang, Tianfang
By organisation
Mathematical Statistics
In the same journal
Physics in Medicine and Biology
Probability Theory and Statistics

Search outside of DiVA

GoogleGoogle Scholar

doi
pubmed
urn-nbn

Altmetric score

doi
pubmed
urn-nbn
Total: 289 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf