Explainable Reinforcement Learning for Mobile Network Optimization
2025 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]
The growing complexity of mobile networks has driven the need for automated optimization approaches, with Reinforcement Learning (RL) emerging as a promising data-driven technique for controlling network parameters. However, RL systems often operate as black boxes, lacking the interpretability and transparency required by Mobile Network Operators (MNOs) and Artificial Intelligence (AI) engineers to trust, monitor, and refine their behavior. This lack poses significant challenges, particularly in the telecommunications domain, where ensuring alignment with operational objectives and maintaining reliable network performance is critical. Consequently, there is a pressing need for explainability methods that make RL decisions more interpretable and understandable for stakeholders.
This thesis investigates the emerging field of Explainable Reinforcement Learning (XRL), specifically focusing on its application to mobile network optimization. In the context of single-agent RL, we evaluate two state-of-the-art XRL techniques in the Remote Electrical Tilt (RET) optimization problem, where the tilt of each antenna needs to be controlled to optimize network coverage and capacity. These methods address two distinct interpretability challenges in RL: (i) understanding the state-action mapping determined by an RL policy and (ii) explaining the long-term goal of an RL agent. These evaluations highlight the potential and limitations of existing XRL methods when applied to a simulated mobile network.
To address a significant gap in the literature on single-agent XRL, we devise a novel algorithm, Temporal Policy Decomposition (TPD), which explains RL actions by predicting their outcomes in upcoming time steps. This method provides a clear view of an agent's anticipated behavior starting from a given environment state by generating insights for individual time steps. These time-aware explanations offer a comprehensive understanding of the decision-making process that accounts for the sequential nature of RL.
We then focus on multi-agent systems and develop a rollout-based algorithm to estimate Local Shapley Values (LSVs), quantifying individual agent contributions in specific states. This method reliably identifies agent contributions even in scenarios involving undertrained or suboptimal agents, making it a valuable tool for monitoring and diagnosing cooperative multi-agent systems.
These contributions represent a step toward a holistic explainability framework for RL in mobile networks, combining single-agent and multi-agent perspectives. By addressing core interpretability challenges, this research equips MNOs and AI engineers with practical techniques to trust, monitor, debug, and refine RL models. Furthermore, it helps ensure readiness for potential regulatory requirements, contributing to the broader goal of advancing trustworthy AI in telecommunications.
Abstract [sv]
Den ökande komplexiteten hos mobila nätverk har drivit på behovet av automatiserade optimeringsmetoder, där Reinforcement Learning (RL) framstår som en lovande datadriven teknik för att kontrollera nätverksparametrar. RL-system fungerar dock ofta som svarta lådor som saknar den tolkningsbarhet och transparens som krävs av mobilnätsoperatörer och AI-utvecklare för att kunna lita på, övervaka och förbättra deras beteende. Denna brist utgör betydande utmaningar, särskilt inom telekommunikationsområdet, där det är kritiskt att säkerställa överensstämmelse med operativa mål och upprätthålla pålitlig nätverksprestanda.
Den här avhandlingen undersöker det framväxande området Explainable Reinforcement Learning (XRL), med fokus speciellt på dess tillämpning för mobilnätsoperatörer. I samband med single-agent RL utvärderar vi två toppmoderna XRL-tekniker för optimeringsproblemet Remote Electrical Tilt (RET), där lutningen av varje antenn måste kontrolleras för att optimera täckning och kapacitet. Dessa metoder tar itu med två distinkta tolkbarhetsutmaningar i RL: (i) förstå tillstånds-handlingsmappningen som bestäms av en RL-policy och (ii) att förklara det långsiktiga målet för en RL-agent. Dessa utvärderingar belyser potentialen och begränsningarna hos befintliga XRL-metoder när de tillämpas på ett simulerat mobilnät.
För att ta itu med en betydande lucka i litteraturen om single-agent XRL, utvecklar vi en ny algoritm, Temporal Policy Decomposition (TPD), som förklarar RL-handlingar genom att förutsäga deras resultat i kommande tidssteg. Denna metod ger en tydlig bild av en agents förväntade beteende från ett givet tillstånd genom att generera insikter för individuella tidssteg. Dessa tidsmedvetna förklaringar ger en omfattande förståelse för beslutsprocessen som tar hänsyn till RL:s sekventiella karaktär.
Vi fokuserar sedan på system med flera agenter och utvecklar en utrullningsbaserad algoritm för att uppskatta lokala Shapley-värden (LSV), som kvantifierar individuella agentbidrag i specifika stater. Denna metod identifierar på ett tillförlitligt sätt agentbidrag även i scenarier som involverar undertränade eller suboptimala agenter, vilket gör den till ett värdefullt verktyg för att övervaka och diagnostisera kooperativa multiagentsystem.
Dessa bidrag representerar ett steg mot en holistisk förklaringsram för RL i mobilnät, som kombinerar enagent- och multiagentperspektiv. Genom att ta itu med centrala tolkningsutmaningar, utrustar denna forskning MNO:er och AI-utvecklare med praktiska tekniker för att lita på, felsöka, övervaka, och förbättra RL-modeller. Dessutom bidrar det till att säkerställa beredskap för potentiellt kommande regulatoriska krav, vilket bidrar till det bredare målet att främja pålitlig AI inom telekommunikation.
Place, publisher, year, edition, pages
Stockholm, Sweden: KTH Royal Institute of Technology, 2025. , p. x, 47
Series
TRITA-EECS-AVL ; 2025:17
Keywords [en]
Artificial Intelligence, Machine Learning, Reinforcement Learning, Explainable Artificial Intelligence, Explainable Reinforcement Learning, Mobile Network Optimization, Telecommunications
National Category
Computer Sciences Electrical Engineering, Electronic Engineering, Information Engineering Telecommunications Artificial Intelligence
Research subject
Electrical Engineering
Identifiers
URN: urn:nbn:se:kth:diva-358957ISBN: 978-91-8106-180-2 (print)OAI: oai:DiVA.org:kth-358957DiVA, id: diva2:1932434
Presentation
2025-02-21, https://kth-se.zoom.us/j/66674834407, Harry Nyquist, Malvinas väg 10, Stockholm, 15:00 (English)
Opponent
Supervisors
Funder
Swedish Foundation for Strategic ResearchWallenberg AI, Autonomous Systems and Software Program (WASP)
Note
QC 20250129
2025-01-292025-01-292025-01-30Bibliographically approved
List of papers