kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
An efficient deep reinforcement learning approach to the energy management for a parallel hybrid electric vehicle
KTH, School of Industrial Engineering and Management (ITM).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
En effektiv djup förstärkningsinlärningsmetod för energihantering för ett parallellt hybridelektrofordon (Swedish)
Abstract [en]

In contemporary world, the global energy crisis and raise of greenhouse gas concentration in atmosphere necessitate the energy conservation and emission reduction. Hybrid electric vehicles (HEVs) can achieve great promise in reducing fuel consumption and greenhouse gas emissions by appropriate energy management strategies (EMSs). Considering that the actual driving environment is varying due to different road conditions, weathers and so on, this thesis aims to propose a rapidly convergent reinforcement learning based method to design an EMS with strong self-adaptivity.

Based on a parallel HEV prototype, Q-learning and Deep Neural Network (QL-DNN) method and Deep Q Network (DQN) method are proposed to design the EMS. To improve learning efficiency, Dynamic Programming (DP) is applied offline to solve an optimal control problem to obtain a cost-to-go matrix, which is further expanded to a Q-table to initialize the learning agents. The QL-DNN method conducts Q-learning (QL) based on the Q-table generated by DP to obtain a trained Q-table, which is then converted to a neural network to initialize an DQN agent for deep Q-learning. By contrast, QL is not required by the DQN method. The DQN method directly converts the Q-table generated by DP to a neural network to initialize the DQN agent for deep Q-learning.

Based on a given racing track, in comparison with the original quasi-Pontryagin’s Minimum Principle (Q-PMP) based EMS, the QL-DNN based EMS achieves a fuel efficiency with 12% deviation, and the DQN based EMS achieves a fuel efficiency with 10% deviation. Besides, the learning frameworks make the proposed EMSs learn from the environment in real-time, so that they can adapt to varied driving environment with smaller deviations on fuel efficiencies than the Q-PMP based EMS. Although the number of training episodes required by DQN is 267, which is almost one sixth of the number of episodes required by QL-DNN, the total training time required by DQN is 53369s, which is 59.9% longer than QL-DNN. This is because that most of the episodes of QL-DNN are spent on the QL phase, which updates the Q-table point by point. Each update of the Q-table requires much less time than each update of DQN, which requires a minibatch of data to update network parameters. In conclusion, QL-DNN is a more efficient method than DQN to design an EMS.

Abstract [sv]

I den nutida världen nödvändiggör den globala energikrisen och ökningen av koncentration av växthusgaser i atmosfären en minskad energiförbrukning och minskade utsläpp. Elhybridfordon (HEVs) är en lovande metod att minska bränsle konsumtionen och utsläppen av växthusgaser genom lämpliga energi hanteringsstrategier (EMSs). Med tanke på att den faktiska kör miljön varierar med olika vägar, väder, etc., är målet med detta examensarbete att föreslå en snabbt konvergerande förstärkning inlärnings baserad metod för att designa en EMS med en stark själv anpassningsförmåga. 

Baserat på en parallell HEV-prototyp föreslås Q-inlärning och Djupt neuralt nätverk (QL-DNN) metod och Djupt Q-nätverk (DQN) metod för att utforma EMS. För att förbättra inlärningseffektiviteten används Dynamisk programmering (DP) offline för att lösa ett optimalt kontrollproblem för att få en kostnad-att-gå matris, som ytterligare utökas till en Q-tabell för att initiera inlärningsagenterna. QL-DNN-metoden genomför Q-inlärning (QL) baserat på Q-tabellen genererad av DP för att erhålla en utbildad Q-tabell, som sedan konverteras till ett neuralt nätverk för att initiera en DQN-agent för djupgående Q-inlärning. Däremot krävs QL inte av DQN-metoden. DQN-metoden omvandlar direkt Q-tabellen som genereras av DP till ett neuralt nätverk för att initiera DQN-agenten för djupgående Q-inlärning. 

Baserat på en given racerbana, i jämförelse med den originala Q-PMP baserade EMS, uppnår den QL-DNN baserade EMS en bränsleeffektivitet med 12% avvikelse, och den DQN baserade EMS uppnår full bränsleeffektivitet med 10% avvikelse. Dessutom, ramarna för inlärning gör så att den föreslagna EMS lär sig av miljön i realtid, så att de kan anpassa sig till varierad körnings miljöer med mindre avvikelser i bränsleeffektivitet än den Q-PMP baserade EMS. Fastän antalet träningssessioner som krävs av DQN är 267, vilket är nästan en sjättedel av antalet sessioner som krävs av QL-DNN. Den total träningstiden som krävs av DQN är 53369 s, vilket är 59.9% längre än QL-DNN. Det är eftersom de flesta av sessionerna av QL-DNN spenderar i QL-fasen, vilket uppdaterar Q-tabellen punkt för punkt. Varje uppdatering av Q-tabellen kräver mycket mindre tid jämfört med varje uppdatering av DQN, vilket kräver en minibatch av data för att uppdatera nätverks parametrarna. Slutsatsen är att QL-DNN är en mycket mer effektiv metod än DQN för att designa en EMS. 

Place, publisher, year, edition, pages
2023. , p. 79
Series
TRITA-ITM-EX ; 2022:562
Keywords [en]
HEV, EMS, Deep Reinforcement Learning, Learning Efficiency, Fuel Efficiency
Keywords [sv]
HEV, EMS, Djup Förstärkningsinlärning, Inlärningseffektivitet, Bränsleeffektivitet
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-323953OAI: oai:DiVA.org:kth-323953DiVA, id: diva2:1737459
External cooperation
Lei Feng
Supervisors
Examiners
Available from: 2023-02-16 Created: 2023-02-16 Last updated: 2023-02-16Bibliographically approved

Open Access in DiVA

fulltext(1561 kB)280 downloads
File information
File name FULLTEXT01.pdfFile size 1561 kBChecksum SHA-512
2add7efef88006c4f961580083896ab279872aeea7602fd397a612f0d4d076dae25f2a10904b0444dd0d449c66c43f42123790f70bd35cf0745cf6c99551c0cc
Type fulltextMimetype application/pdf

By organisation
School of Industrial Engineering and Management (ITM)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 280 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 776 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf