Bandit Methods for Network Optimization: Safety, Exploration, and Coordination
2023 (English)Doctoral thesis, comprehensive summary (Other academic)Alternative title
Banditmetoder för Nätverksoptimering : Säkerhet, Utforskning och Koordinering (Swedish)
Abstract [en]
The increasing complexity of modern mobile networks poses unprecedented challenges to their optimization. Mobile Network Operators (MNOs) need to control a large number of network parameters to satisfy the users’ demands. The antenna tilt is an important example of controllable network parameter that has significant effects on the network coverage and capacity. Recently, sequential learning algorithms have emerged as promising tools for controlling network parameters efficiently and reducing operational expenses. Bandits are a class of sequential learning methods in which an agent interacts with an environment to learn an optimal policy by selecting actions and receiving rewards from an environment. However, these methods come with their own challenges with respect to safety, exploration, and coordination. In this thesis, we investigate the antenna tilt optimization problem using bandit methods with a focus on these challenges.
We investigate the safety aspect using offline learning methods in Contextual Bandits (CBs), where the goal is to learn an improved target policy, solely from offline data collected by a logging policy. Based on this data, a target policy is derived by minimizing its counterfactual estimated risk. We learn and evaluate several antenna tilt policies using real-world network data, showing that offline learning approaches can safely learn improved tilt control policies.
We then focus on the exploration aspect by investigating the Best Policy Identification (BPI) problem in Contextual Linear Bandit (CLB), in which the reward has a convenient linear structure. The goal is to identify an optimal policy using the least possible amount of data. We derive lower bounds on the number of samples required by any algorithm returning an approximately optimal policy. We devise algorithms learning optimal tilt control policies from existing data (passive learning) or from data actively generated by the algorithm (active learning). We demonstrate experimentally that our algorithms produce optimal tilt control policies using fewer samples than rule-based algorithms.
We explore the coordination aspect in a multi-agent bandit setting where the reward of each agent depends on the actions of other agents. We investigate both Best Arm Identification (BAI) and Regret Minimization (RM): in BAI, the objective is to find an optimal global action with minimal sample complexity, while in RM the objective is to maximize the cumulative reward over rounds. We derive lower bounds on the sample complexity and the regret, which characterize the corresponding optimal sampling strategy. Unfortunately, these bounds are obtained by solving combinatorial optimization problems that are hard to solve and cannot be leveraged in the design of efficient algorithms. Inspired by Mean Field (MF) methods, we devise a family of approximations to these problems. By leveraging these approximations, we devise algorithms for BAI and RM trading off the achievable statistical and computational complexity. We apply these algorithms to solve the antenna tilt optimization problem showcasing the scalability and statistical efficiency of the proposed methods.
Abstract [sv]
Den ökande komplexiteten hos moderna mobila nätverk skapar nya oöverträffade utmaningar. Mobiloperatörer behöver kontrollera ett stort antal nätverksparametrar för att tillfredsställa användarnas krav. Antennlutning är ett viktigt exempel på en kontrollerbar nätverksparameter som har betydande effekter på nätverkstäckning och nätverkskapacitet. Sekventiella inlärningsalgoritmer har framträtt som lovande verktyg för kontroll av nätverksparametrar och för att minska driftskostnader. Banditmetoder är sekventiella inlärningsmetoder där en agent interagerar med en miljö för att lära sig en optimal kontrollstrategi med avseende på ett givet mål. Dessa metoder medför dock egna utmaningar när det gäller säkerhet, utforskning och koordination. I den här avhandlingen studerar vi antennlutningsoptimeringsproblemet med banditmetoder med fokus på dessa utmaningar.
Vi undersöker först fsäkerhetsaspekten med hjälp av offline off-policy inlärningsmetoder i Contextual Bandits (CBs). Målet är att lära sig en förbättrad målpolicy, enbart från offline-data insamlad av en loggningspolicy. Baserat på detta data härleds en målpolicy genom att minimera uppkattade risken på målpolicien. Vi lär oss och utvärderar flera antennlutningspolicies med hjälp av verkliga nätverksdata och visar att dessa metoder kan lära sig förbättrade lutningskontrollpolicies, på ett säkert sätt.
Sedan fokuserar vi på utforskningssidan inom ett Best Policy Identification-inställning i Contextual Linear Bandits (CLBs), där belöningen har en bekväm linjär struktur. Målet är att, med så lite data som möjligt, identifiera en optimal policy. Vi härleder nedre gränser för antalet dataexempel som krävs av vilken algoritm som helst som returnerar en appriximativt optimal policy. Vi utvecklar algoritmer som lär sig optimala lutningskontrollpolicies från befintlig data (passiv inlärning) eller från data genererad av algoritmen (aktiv inlärning). Vi visar experimentellt att våra algoritmer producerar optimala antennlutningskontrollpolicies med färre prover än regelbaserade algoritmer.
Vi utforskar koordinationsaspekten genom att undersöka antennlutningsoptimeringsproblemet i ett fleragents-banditinscenario med en kopplad belöningsstruktur. Vi undersöker både Best Arm Identification (BAI) och Regret Minimization (RM). I BAI är målet att hitta en optimal global åtgärd med minimal dataexempelkomplexitet, medan i RM är målet att maximera den kumulativa belöningen över flera omgångar. Vi härleder instansspecifika nedre gränser för dataexempelkomplexiteten och ånger, som karaktäriserar den motsvarande optimala dataexempeltagningstrategin. Tyvärr erhålls dessa gränser genom att lösa kombinatoriska optimeringsproblem som är svåra att lösa och inte kan utnyttjas i utformningen av effektiva algoritmer. Inspirerade av Mean Field (MF)-approximationsmetoder utvecklar vi därfor en familj av approximationer till dessa problem och utforskar avvägningen mellan den uppnåeliga statistiska och beräkningsmässiga komplexiteten. Vi utvecklar algoritmer för BAI och RM vars provkomplexitet och ånger bevisligen matchar våra approximerade nedre gränser och tillämpar dessa algoritmer för att lösa antennlutningsoptimeringsproblemet.
Place, publisher, year, edition, pages
Stockholm, Sweden: Kungliga Tekniska högskolan, 2023. , p. xiv, 47
Series
TRITA-EECS-AVL ; 2023:66
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Research subject
Electrical Engineering
Identifiers
URN: urn:nbn:se:kth:diva-337535ISBN: 978-91-8040-716-8 (print)OAI: oai:DiVA.org:kth-337535DiVA, id: diva2:1802841
Public defence
2023-10-30, Kollegiesalen, Brinellvägen 8, Stockholm, 09:00 (English)
Opponent
Supervisors
Note
QC 20231009
2023-10-092023-10-052023-10-13Bibliographically approved
List of papers