kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
The Two-Stage PI2 Control Strategy
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Reglerteknik.ORCID-id: 0000-0002-7422-3966
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Reglerteknik.ORCID-id: 0000-0001-7309-8086
2022 (Engelska)Ingår i: IEEE Control Systems Letters, E-ISSN 2475-1456, Vol. 6, s. 2072-2077Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

PI2 is a stochastic optimal control method generally regarded as a reinforcement learning algorithm. Recent work, however, suggests that the reinforcement learning aspect of PI2 actually appears when optimizing feedforward controls which will lead to optimal closed-loop performance once combined with feedback controls. These feedbacks are necessary to achieve the predicted performance, yet have been largely neglected in the literature and applications due to their complexity. In this letter, we show that the feedbacks actually take a simple-to-implement form for a wide range of system dynamics, paving way for future research and applications of PI2. The correctness of the results is demonstrated through numerical simulations.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE) , 2022. Vol. 6, s. 2072-2077
Nyckelord [en]
Costs, Feedforward systems, Trajectory, Optimal control, System dynamics, Reinforcement learning, Real-time systems, Stochastic optimal control, path integral policy improvement, Feynman-Kac theorem, nonlinear control systems
Nationell ämneskategori
Reglerteknik
Identifikatorer
URN: urn:nbn:se:kth:diva-307337DOI: 10.1109/LCSYS.2021.3137133ISI: 000739631300011Scopus ID: 2-s2.0-85122063949OAI: oai:DiVA.org:kth-307337DiVA, id: diva2:1631293
Anmärkning

QC 20220124

Tillgänglig från: 2022-01-24 Skapad: 2022-01-24 Senast uppdaterad: 2023-12-07Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Várnai, PéterDimarogonas, Dimos V.

Sök vidare i DiVA

Av författaren/redaktören
Várnai, PéterDimarogonas, Dimos V.
Av organisationen
Reglerteknik
I samma tidskrift
IEEE Control Systems Letters
Reglerteknik

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 100 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf