An efficient deep reinforcement learning approach to the energy management for a parallel hybrid electric vehicle
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
En effektiv djup förstärkningsinlärningsmetod för energihantering för ett parallellt hybridelektrofordon (Swedish)
Abstract [en]
In contemporary world, the global energy crisis and raise of greenhouse gas concentration in atmosphere necessitate the energy conservation and emission reduction. Hybrid electric vehicles (HEVs) can achieve great promise in reducing fuel consumption and greenhouse gas emissions by appropriate energy management strategies (EMSs). Considering that the actual driving environment is varying due to different road conditions, weathers and so on, this thesis aims to propose a rapidly convergent reinforcement learning based method to design an EMS with strong self-adaptivity.
Based on a parallel HEV prototype, Q-learning and Deep Neural Network (QL-DNN) method and Deep Q Network (DQN) method are proposed to design the EMS. To improve learning efficiency, Dynamic Programming (DP) is applied offline to solve an optimal control problem to obtain a cost-to-go matrix, which is further expanded to a Q-table to initialize the learning agents. The QL-DNN method conducts Q-learning (QL) based on the Q-table generated by DP to obtain a trained Q-table, which is then converted to a neural network to initialize an DQN agent for deep Q-learning. By contrast, QL is not required by the DQN method. The DQN method directly converts the Q-table generated by DP to a neural network to initialize the DQN agent for deep Q-learning.
Based on a given racing track, in comparison with the original quasi-Pontryagin’s Minimum Principle (Q-PMP) based EMS, the QL-DNN based EMS achieves a fuel efficiency with 12% deviation, and the DQN based EMS achieves a fuel efficiency with 10% deviation. Besides, the learning frameworks make the proposed EMSs learn from the environment in real-time, so that they can adapt to varied driving environment with smaller deviations on fuel efficiencies than the Q-PMP based EMS. Although the number of training episodes required by DQN is 267, which is almost one sixth of the number of episodes required by QL-DNN, the total training time required by DQN is 53369s, which is 59.9% longer than QL-DNN. This is because that most of the episodes of QL-DNN are spent on the QL phase, which updates the Q-table point by point. Each update of the Q-table requires much less time than each update of DQN, which requires a minibatch of data to update network parameters. In conclusion, QL-DNN is a more efficient method than DQN to design an EMS.
Abstract [sv]
I den nutida världen nödvändiggör den globala energikrisen och ökningen av koncentration av växthusgaser i atmosfären en minskad energiförbrukning och minskade utsläpp. Elhybridfordon (HEVs) är en lovande metod att minska bränsle konsumtionen och utsläppen av växthusgaser genom lämpliga energi hanteringsstrategier (EMSs). Med tanke på att den faktiska kör miljön varierar med olika vägar, väder, etc., är målet med detta examensarbete att föreslå en snabbt konvergerande förstärkning inlärnings baserad metod för att designa en EMS med en stark själv anpassningsförmåga.
Baserat på en parallell HEV-prototyp föreslås Q-inlärning och Djupt neuralt nätverk (QL-DNN) metod och Djupt Q-nätverk (DQN) metod för att utforma EMS. För att förbättra inlärningseffektiviteten används Dynamisk programmering (DP) offline för att lösa ett optimalt kontrollproblem för att få en kostnad-att-gå matris, som ytterligare utökas till en Q-tabell för att initiera inlärningsagenterna. QL-DNN-metoden genomför Q-inlärning (QL) baserat på Q-tabellen genererad av DP för att erhålla en utbildad Q-tabell, som sedan konverteras till ett neuralt nätverk för att initiera en DQN-agent för djupgående Q-inlärning. Däremot krävs QL inte av DQN-metoden. DQN-metoden omvandlar direkt Q-tabellen som genereras av DP till ett neuralt nätverk för att initiera DQN-agenten för djupgående Q-inlärning.
Baserat på en given racerbana, i jämförelse med den originala Q-PMP baserade EMS, uppnår den QL-DNN baserade EMS en bränsleeffektivitet med 12% avvikelse, och den DQN baserade EMS uppnår full bränsleeffektivitet med 10% avvikelse. Dessutom, ramarna för inlärning gör så att den föreslagna EMS lär sig av miljön i realtid, så att de kan anpassa sig till varierad körnings miljöer med mindre avvikelser i bränsleeffektivitet än den Q-PMP baserade EMS. Fastän antalet träningssessioner som krävs av DQN är 267, vilket är nästan en sjättedel av antalet sessioner som krävs av QL-DNN. Den total träningstiden som krävs av DQN är 53369 s, vilket är 59.9% längre än QL-DNN. Det är eftersom de flesta av sessionerna av QL-DNN spenderar i QL-fasen, vilket uppdaterar Q-tabellen punkt för punkt. Varje uppdatering av Q-tabellen kräver mycket mindre tid jämfört med varje uppdatering av DQN, vilket kräver en minibatch av data för att uppdatera nätverks parametrarna. Slutsatsen är att QL-DNN är en mycket mer effektiv metod än DQN för att designa en EMS.
Place, publisher, year, edition, pages
2023. , p. 79
Series
TRITA-ITM-EX ; 2022:562
Keywords [en]
HEV, EMS, Deep Reinforcement Learning, Learning Efficiency, Fuel Efficiency
Keywords [sv]
HEV, EMS, Djup Förstärkningsinlärning, Inlärningseffektivitet, Bränsleeffektivitet
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-323953OAI: oai:DiVA.org:kth-323953DiVA, id: diva2:1737459
External cooperation
Lei Feng
Supervisors
Examiners
2023-02-162023-02-162023-02-16Bibliographically approved