Distributionally Robust Optimization, Control and Games
2025 (English)Licentiate thesis, monograph (Other academic)
Abstract [en]
In the era of data-driven decision-making, real-world applications often face uncertainties arising from noise, environmental shifts, and adversarial perturbations. These challenges can degrade model performance, lead to poor decisions, and introduce unforeseen risks. This thesis tackles these issues by developing robust decision-making frameworks for optimization, control, and games, with a particular focus on distributional robustness and risk-averse learning under uncertain data distributions. It consists of four parts.
In the first part, we consider outlier-robust distributionally robust optimization (DRO) problems, where the data distributions are subject to Wasserstein perturbations and outlier contamination. We propose a novel DRO framework leveraging a distance inspired by Unbalanced Optimal Transport (UOT). This UOT-based distance incorporates a soft penalization term in place of traditional hard constraints, enabling the construction of ambiguity sets that are more robust to outliers. Under appropriate smoothness conditions, we establish the strong duality of the proposed DRO formulation. Additionally, we present a computationally efficient Lagrangian penalty formulation and demonstrate that strong duality also holds. We provide empirical results that demonstrate that our method offers improved robustness to outliers and is computationally less demanding.
In the second part, we focus on the decision-dependent optimization problems, where the data distributions react in response to decisions, affecting both the objective function and linear constraints. We establish a sufficient condition for the existence of a constrained equilibrium point, at which the distributions remain invariant under retraining. We propose dual ascent and projected gradient descent algorithms, each with theoretical convergence guarantees, operating in the dual and primal spaces, respectively. Furthermore, we explore the relationship between the equilibrium point and the optimal point for the constrained decision-dependent optimization problem.
In the third part, we study risk-averse learning in online convex games using conditional value at risk (CVaR) as the risk measure. For the zeroth-order feedback setting where agents access only cost values of their selected actions, we propose risk-averse learning algorithms with sample reuse and variance reduction. For the first-order feedback setting where agents obtain gradient information, we develop a first-order risk-averse leaning algorithm based on value at risk estimates. Despite the bias in CVaR gradient estimates, we establish high-probability convergence guarantees for all proposed algorithms.
In the final part, we explore distributional reinforcement learning (DRL) in linear quadratic regulator (LQR) problems. A key challenge in DRL is the design of the distribution representation for policy evaluation. For discounted LQR control, we derive a closed-form expression for the random return and analyze its properties, including variance bounds, sensitivity, and finite approximation error. For unknown models, we introduce a model-free method to estimate the return distribution with sample complexity guarantees. We also extend these results to partially observable linear systems. Using the learned return distribution, we propose a zeroth-order policy gradient algorithm for risk-averse LQR using CVaR as the risk measure.
Abstract [sv]
I en era av datadrivet beslutsfattande ställs verkliga tillämpningar ofta inför osäkerheter som uppstår från brus, miljöförändringar och adversariala störningar. Dessa utmaningar kan försämra modellens prestanda, leda till dåliga beslut och introducera oförutsedda risker. Denna avhandling hanterar dessa frågor genom att utveckla robusta beslutsramverk för optimering, styrning och spel, med särskilt fokus på distributionell robusthet och riskavert inlärning under osäkra datadistributioner. Den består av fyra delar.
I den första delen undersöker vi outlier-robusta problem inom distributionell robust optimering (DRO), där datadistributionerna är utsatta för störningar i form av Wasserstein-perturbationer och outlier-kontaminering. Vi föreslår ett nytt DRO-ramverk som utnyttjar ett avstånd inspirerat av Obalanserad Optimal Transport (UOT). Detta UOT-baserade avstånd inför en mjuk penaliseringskomponent istället för traditionella hårda begränsningar, vilket möjliggör konstruktionen av tvetydighetsmängder som är mer robusta mot outliers. Under lämpliga jämnhetsvillkor fastställer vi stark dualitet för den föreslagna DRO-formuleringen. Dessutom presenterar vi en beräkningsmässigt effektiv formulering med Lagrangestraff och visar att stark dualitet även gäller här. Vi presenterar empiriska resultat som visar att vår metod erbjuder förbättrad robusthet mot outliers och är beräkningsmässigt mindre krävande.
I den andra delen fokuserar vi på beslutberoende optimeringsproblem, där datadistributionerna förändras som svar på besluten och påverkar både målfunktionen och linjära begränsningar. Vi fastställer ett tillräckligt villkor för existensen av en begränsad jämviktspunkt, där distributionerna förblir oförändrade vid omträning. Vi föreslår dual ascent- och projicerade gradientnedstigningsalgoritmer, båda med teoretiska konvergensgarantier, som arbetar i respektive duala och primala rum. Vidare undersöker vi sambandet mellan jämviktspunkten och optimalpunkten för det beslutberoende optimeringsproblemet med begränsningar.
I den tredje delen studerar vi riskavert inlärning i online konvexa spel genom att använda Conditional Value at Risk (CVaR) som riskmått. För feedbackinställningen med nollte ordningen, där agenter endast har tillgång till kostnadsvärden för sina valda handlingar, föreslår vi riskaverta inlärningsalgoritmer med provåteranvändning och variansreduktion. För feedbackinställningen med första ordningen, där agenter får gradientinformation, utvecklar vi en riskavert inlärningsalgoritm baserad på Value at Risk-estimat. Trots bias i gradientestimat för CVaR, fastställer vi konvergensgarantier med hög sannolikhet för alla föreslagna algoritmer.
I den sista delen utforskar vi distributionsförstärkt förstärkningsinlärning (DRL) i problem med linjära kvadratiska regulatorer (LQR). En nyckelutmaning i DRL är utformningen av representationen för returdistributionen vid policyutvärdering. För diskonterad LQR-kontroll härleder vi ett slutet uttryck för den stokastiska returen och analyserar dess egenskaper, inklusive variationsgränser, känslighet och fel vid ändlig approximation. För okända modeller introducerar vi en modellfri metod för att uppskatta returdistributionen med garantier för provkomplexitet. Vi utvidgar också dessa resultat till partiellt observerbara linjära system. Med hjälp av den inlärda returdistributionen föreslår vi en policy-gradientalgoritm av nollte ordningen för riskavers LQR med CVaR som riskmått.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. , p. xiii, 172
Series
TRITA-EECS-AVL ; 2025:7
Keywords [en]
Distributionally robust optimization, decision-dependent optimization, risk-averse games, distributional LQR
Keywords [sv]
Fördelningsrobust optimering, beslutsberoende optimering, riskaverta spel, fördelningsbaserad LQR
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Research subject
Electrical Engineering
Identifiers
URN: urn:nbn:se:kth:diva-358102ISBN: 978-91-8106-158-1 (print)OAI: oai:DiVA.org:kth-358102DiVA, id: diva2:1924961
Presentation
2025-01-31, https://kth-se.zoom.us/j/69761970586, Harry Nyquist, Malvinas väg 10, KTH Campus, Stockholm, 10:00 (English)
Opponent
Supervisors
Note
QC 20250108
2025-01-082025-01-072025-01-08Bibliographically approved