kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverk (Swedish)
Abstract [en]

Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments.

Abstract [sv]

Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.

Place, publisher, year, edition, pages
2022. , p. 47
Series
TRITA-EECS-EX ; 2022:836
Keywords [en]
Reinforcement Learning, Sample Efficiency, Model-based, Expert Policy, Remote Electrical Tilt, Telecommunication
Keywords [sv]
Förstärkande inlärning, dataeffektivitet, modell-baserad, expert-policy, fjärrstyrning av antenners nedåtlutning, telekommunikation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-322826OAI: oai:DiVA.org:kth-322826DiVA, id: diva2:1724487
External cooperation
Ericsson AB
Supervisors
Examiners
Available from: 2023-01-26 Created: 2023-01-08 Last updated: 2023-01-26Bibliographically approved

Open Access in DiVA

fulltext(2409 kB)200 downloads
File information
File name FULLTEXT01.pdfFile size 2409 kBChecksum SHA-512
5e738f947c474e677b41e65ff55292f6ac2ae5666665fafd0c7f78c60a4bde65a2941eebe527263933fc8ef836bc2e336ff4d6287da7f88b11bd6fe13e9191fd
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 200 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 448 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf