Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Antenna tilt optimization using reinforcement learning with doubly-safe exploration
KTH, School of Electrical Engineering and Computer Science (EECS).
2020 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Antennlutningsoptimering med förstärkninginlärningmed dubbel-säker utforskning (Swedish)
Abstract [en]

Antenna tilt is the angular orientation of the radiating beam from the antenna compared to the horizontal plane. It is a powerful parameter for optimizing mobile network’s coverage and capacity. Currently in industries, tilt optimization is managed by a Self-organizing network feature that changes Remote Electrical Tilt angles. In this approach, a rule-based logic is used to decide whether the antenna needs an up-tilt or down-tilt. The approach has been successfully deployed in several live LTE networks and generated millions of (state, action, reward) experience pairs. However, this logic requires manualtuning of policy settings and does not have learning capability. Reinforcement Learning (RL) is a promising technique to improve current solution. The key challenge to deploy RL agent in any production system is the high cost of exploration, especially in the mission critical telecommunication networks. To address this problem, a doubly-safe exploration algorithm is designed to train a RL agent with the help of the the rule-based logic as baseline agent. In this work, one set of data is collected from one operator’s network to train a simulator that returns a reward given the state and action as input. Another set of data, collected from different operator’s network, is used to train a neural network to replicate fuzzy-logic policy using supervised learning, and then train an Actor-Critic RL agent using the doubly-safe exploration algorithm when it interacts with the simulator. The trained RL agent and the fuzzy-logic policy is evaluated and compared on validation data. Experimental results show that the RL agent achieve approximately 20% higher average reward compare to the rule-based agent while not taking any adverse decisions that could affect a live network.

Abstract [sv]

Lutning av antennen är den strålande strålens vinkelorientering från antennen jämfört med det horisontella planet. Det är en stark parameter för att optimera mobilnätverkets täckning och kapacitet. För närvarande inom industri hanteras lutningoptimering av självorganiserande nätverk genom att ändra RET-vinklar (Remote Electrical Tilt). I detta tillvägagångssätt används en regelbaserad logik för att avgöra om antennen behöver en uppeller ner-lutning. Tillvägagångssättet har implementerats med framgång i flera live LTE-nätverk och genererat miljontals (tillstånd, handling, belöning) effarenhet par. Denna metod kräver emellertid manuell inställning av policyinställningar och har inte inlärningsförmåga. Förstärkningsinlärande (RL) är en lovande teknik för att förbättra den nuvarande lösningen. Den viktigaste utmaningen att använda RL-agent i produktionssystem är de höga utforskningskostnaderna, särskilt i uppdragskritiska telekommunikationsnät. För att lösa detta problem är en dubbelsäker utforskningsalgoritm utformad för att utbilda en RL-agent med hjälp av den regelbaserade logiken som baslinjeagent. I detta arbete samlas en uppsättning data från en operatörs nätverk för att träna en simulator som ger en belöning i betraktande av tillstånd och handling som indata. En annan uppsättning data som samlas in från flera operatörs nätverk används för att träna ett neuralt nätverk för att replikera fuzzy-logic policy med föreståd inlärning och sedan utbilda en Actor-Critic RL-agent med den dubbelsäkra utforskningsalgoritmen när den interagerar med simulatorn. Den utbildade RL-agenten och den oskarp-logiska policyn utvärderas och jämförs med valideringsdata. Experimentella resultat visar att RL-agenten uppnår ungefär 20% högre genomsnittlig belöning jämfört med regelbaserad agent utan att ta några negativa beslut som kan påverka ett aktuell-nätverk.

Place, publisher, year, edition, pages
2020.
Series
TRITA-EECS-EX ; 2020:60
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-272132OAI: oai:DiVA.org:kth-272132DiVA, id: diva2:1424488
External cooperation
Ericsson AB
Educational program
Master of Science - Machine Learning
Supervisors
Examiners
Available from: 2020-04-17 Created: 2020-04-17 Last updated: 2020-04-17Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 13 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf