kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Self-tuning temperature controller using machine learning
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematics (Div.).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Självjusterande temperaturregulator med hjälp av maskininlärning (Swedish)
Abstract [en]

Telecommunications is a keystone in society today, it is used everywhere and by everyone for many different tasks. It serves millions of people everyday with the possibility to communicate both in text and speech. For many people it is the main provider of news and social contacts. The backbone of telecommunications as we know it is provided by cellular base stations, they are equipped with antennas and radios to be able to transmit radio signals to end users. The radio in the cellular base station are working around the clock to provide coverage for everyone using them and they need to be stable and reliable. 

The radios are prone to damage if they reach to high temperatures due to failure in the electronics. To prevent heat damage they often rely on passive heat dissipation and software that shut them down or limit them if they reach high temperatures. One such countermeasure is the PID controller that limits the power input to the radio, and thus reducing the heat generation. The need for a PID controller to be accurate and stable is crucial for a well functioning radio, since limiting the power consumption in the radio also decreases the performance for the end users.

In this thesis we investigate if it is possible to tune the PID controller in a radio using an reinforcement learning agent. The reason for tuning the PID controller is that the radios are located in completely different locations with different weather conditions. A hot place with no wind makes it harder for the heat to dissipate than the opposite, thus the PID controllers possibly can have different parameters depending on where they are deployed. For the training of the agent two different algorithms are considered, Proximal Policy Optimization (PPO) and Twin Delayed Deep Deterministic Policy Gradient (TD3).

After training the agents for 4*1e6 steps the evaluation was done. Evaluation showed that it was possible to use an agent to tune the PID controller. The performance of the agents did differ, with the TD3 agent running the radio much warmer than the temperature set as goal for the PID controller. The PPO agent did perform better in managing the heat, by limiting the traffic load. The balance between managing heat and allowing for traffic is hard and further studies are needed to analyse if the reinforcement learning agent is a good solution to tune the PID controller.

Abstract [sv]

Telekommunikation är en viktig del i dagens samhälle, det används av många personer, hela tiden, för en mängd olika uppgifter. Telekommunikation möjliggör dagligen att flera miljoner människor kan kommunicera via telefoni och internet. För många människor är det den huvudsakliga källan till nyheter och sociala kontakter. En av de viktigaste delarna är de basstationer som är utrustade med radios och antenner och skickar ut radiosignaler till slutanvändarna. Radiona i dessa basstationer ska fungera dygnet runt och ge täckning till alla som behöver det, därför behöver de vara stabila och tillförlitliga i sin konstruktion. 

Radion kan gå sönder om den utsätts för värme och speciellt vid extrema temperaturer då elektroniken går sönder. För att förhindra värmeskador så litar man på att passiv värmeavgivning från radion ska vara tillräcklig, men man har också mjukvara som kan förhindra höga temperaturer. En sådan mjukvara är en PID regulator som begränsar energin man tillför i form av ström, och därför minskar den värme som genereras. En sådan PID regulator måste vara stabil och exakt för att radion ska fungera optimalt eftersom en minskning av tillförd energi också minskar prestandan för slutanvändarna.

I den här uppsatsen har vi undersökt om det är möjligt att justera en PID regulator under drift med hjälp av förstärkningsinlärning. Anledningen att man vill justera en PID regulator är att de kan vara placerade i helt olika miljöer med olika väder, tex varma platser utan vind. Det blir då svårare att förlita sig endast på passiv värmeavgivning. Två agenter har tränats med Proximal Policy Optimization (PPO) och Twin Delayed Deep Deterministic Policy Gradient (TD3) och sedan använts för att justera PID regulatorn.

Agenterna tränades 4*1e6 steg och utvärderades sedan. Utvärderingen visade att det är möjligt att använda sig av en agent för att justera PID regulatorn i radion. Resultaten från agenterna var dock olika där TD3 agenten inte kunde begränsa värmeutvecklingen i radion men tillät mycket trafik. PPO agenten begränsade värmen men också trafiken i stor utsträckning. Balansen mellan att begränsa värmeutveklingen och tillåta trafik är svår och ytterligare studier måste genomföras för att dra en slutsats om det är önskvärt att använda sig av en agent tränad med hjälp av förstärkningslärning.

Place, publisher, year, edition, pages
2024. , p. 51
Series
TRITA-SCI-GRU ; 2024:331
Keywords [en]
Temperature control, PID controller, Reinforcement Learning, Radio, PPO, TD3, Self-learning
Keywords [sv]
Temperaturkontroll, PID kontroller, Förstärkningslärande, Radio, PPO, TD3, Självlärande
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-354854OAI: oai:DiVA.org:kth-354854DiVA, id: diva2:1905732
External cooperation
Ericsson AB
Subject / course
Scientific Computing
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2024-12-02 Created: 2024-10-15 Last updated: 2024-12-02Bibliographically approved

Open Access in DiVA

fulltext(3025 kB)79 downloads
File information
File name FULLTEXT01.pdfFile size 3025 kBChecksum SHA-512
93c33ca6dc8d970a6cf06e19b83fe04efe3ee9b005f315033bde00657b3954e44972e7380308daa182451837bef43c8dc95d7f0c3ff810de2dfcdc210d101ff7
Type fulltextMimetype application/pdf

By organisation
Mathematics (Div.)
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 81 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 265 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf