kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Using Reinforcement Learning for Hydrobatic Maneuvering with Autonomous Underwater Vehicles
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Robotics, Perception and Learning, RPL.
KTH, School of Engineering Sciences (SCI), Engineering Mechanics, Vehicle Engineering and Solid Mechanics, Lättkonstruktioner, marina system, flyg- och rymdteknik, rörelsemekanik.ORCID iD: 0000-0002-5839-5573
KTH, School of Engineering Sciences (SCI), Engineering Mechanics, Vehicle Engineering and Solid Mechanics, Lättkonstruktioner, marina system, flyg- och rymdteknik, rörelsemekanik.ORCID iD: 0000-0001-7542-3225
(English)Manuscript (preprint) (Other academic)
Abstract [en]

Hydrobatic autonomous underwater vehicles (AUVs) can be efficient in speed and range as well as agile in maneuvering, thereby enabling new use cases in ocean production, environmental sensing, and security. However, such robots are underactuated, have highly nonlinear dynamics at high angles of attack, and will be used in applications with high requirements for robustness. This paper explores the use of reinforcement learning (RL) to control hydrobatic AUVs, using the agile SAM AUV as a case study. The focus is on controlling the depth and pitch simultaneously, where there is a tight coupling between the states. This maneuver offers a simple, yet interesting test case to compare different control strategies. The twin-delay deep deterministic policy gradient (TD3) algorithm is applied to this AUV control problem. The resulting trained RL controller offers good robustness to noise and performs at a similar level as a Proportional-Integral-Derivative (PID) controller within the Stonefish simulation environment. The agent is also deployed and run on the robot hardware, with high overshoot. While the RL agent has good performance in simulation, the transfer from simulation to reality still leaves some open questions. 

National Category
Robotics and automation
Research subject
Vehicle and Maritime Engineering
Identifiers
URN: urn:nbn:se:kth:diva-336520OAI: oai:DiVA.org:kth-336520DiVA, id: diva2:1796487
Funder
Swedish Foundation for Strategic Research
Note

QC 20230913

Available from: 2023-09-12 Created: 2023-09-12 Last updated: 2025-02-09Bibliographically approved
In thesis
1. Hydrobatics: Real-time Control, Simulation and Learning for Underactuated AUVs in Agile Maneuvers
Open this publication in new window or tab >>Hydrobatics: Real-time Control, Simulation and Learning for Underactuated AUVs in Agile Maneuvers
2023 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

The term hydrobatics refers to the agile maneuvering of underwater vehicles. Underwater robots such as autonomous underwater vehicles (AUVs) and remotely operated vehicles (ROVs) are either designed as flight style, optimized for range and speed, or hover style, optimized for precise maneuverability. Hydrobatic capabilities can help balance efficiency and maneuverability in these platforms, enabling innovative robot designs for impact areas in environmental monitoring, ocean production and security. This dissertation addresses technical challenges related to hydrobatic AUVs and contributes to new knowledge in real-time control, simulation, learning and planning. 

Hydrobatic AUVs are underactuated systems --- new strategies using nonlinear model predictive control (MPC) and behavior trees (BTs) are presented for efficient and safe real-time control of underactuated AUVs in agile maneuvers. Further, the flow around an AUV during such maneuvers transitions from laminar to turbulent flow at high angles of attack, rendering flight dynamics modelling difficult. A full 0-360 degree envelope flight dynamics model is therefore derived, which combines a multi-fidelity hydrodynamic database with a generalized component-buildup approach. Such a model enables real-time (or near real-time) simulations of hydrobatic maneuvers including loops, helices and tight turns. To increase the intelligence and robustness of such systems, data driven methods including physics-informed learning, Gaussian processes, sparse regression  and reinforcement learning are utilized to rapidly identify models of the system's dynamics and perform online adaptive control. To further enhance autonomy, informative path planning is also studied, where an adaptive sampling strategy combines AUV measurements and satellite data to track ocean fronts.

These hydrobatic capabilities are safely brought to the real world through a cyber-physical system (CPS). Simulator environments are closely integrated with the robotic system, enabling pre-validation of controllers and software before hardware deployment. The small and hydrobatic SAM AUV (SAM: Small and Affordable Maritime robot) developed in-house at KTH as part of the Swedish Maritime Robotics Centre (SMaRC) is used as a test platform. The CPS concept is demonstrated with the SAM AUV in applications including detecting underwater targets, inspecting seaweed farm infrastructure and tracking algal blooms using the presented simulation, planning and control strategies.

Abstract [sv]

Hydrobatik avser förmågan att utföra avancerade manövrar med undervattensfarkoster. Undervattensrobotar som autonoma undervattensfarkoster (AUV) är antingen optimerade för räckvidd och hastighet, eller optimerade för precisionsmanövrering. Hydrobatiska kapaciteter kan hjälpa till att balansera effektivitet och manövrerbarhet på dessa plattformar. Hydrobatik möjliggör innovativ robotdesign inom tre nyttoområden --- miljöövervakning, havsproduktion och säkerhet.I denna avhandling undersöks fördelar och tekniska utmaningar relaterade till hydrobatik. Avhandlingen bidrar till ny kunskap kring reglering, simulering, lärande och ruttplanering. Vidare tillämpas denna kunskap inom experiment av dessa robotar i realistiska scenarier.

Inom nämnda nyttoområden har ett antal scenarios identifierats där en kombination av manövrerbarhet samt räckvidd är avgörande för robotens förmåga att utföra sin uppgift. För att åstadkomma detta måste viktiga tekniska utmaningar lösas. För det första har dessa AUVer färre styrytor/trustrar än frihetsgrader, vilket leder till utmaning med underaktuering. Lösningsstrategier baserade på ickelinjär modelprediktiv kontroll (MPC) och beteendeträd (BTs) presenteras för effektiv och säker realtidskontroll av underaktuarande AUV:er i smidiga manövrar. För det andra är flödet runt en AUV som genomför hydrobatiska manövrar komplext. Övergången från laminärt till starkt turbulent flöde vid höga anfallsvinklar gör flygdynamikmodellering svår. En full 0-360 graders flygdynamikmodell härleds därför, vilken kombinerar en multi-tillförlitlighets hydrodynamisk databas med en generaliserad strategi för komponentvis-superpositionering av laster. Detta möjliggör prediktering av hydrobatiska manövrar som t.ex.  looping, roll, spiraler och väldigt snäva svängradier i realtids- eller nära realtids-simuleringar. För att öka intelligensen och robustheten hos sådana system används datadrivna metoder inklusive fysikinformerad inlärning, Gaussiska processer, sparsam regression och förstärkningsinlärning för att snabbt identifiera dynamiska modeller och utföra adaptiv kontroll i realtid. För att ytterligare förbättra autonomin studeras också informativ ruttplanering, där en adaptiv provtagningsstrategi kombinerar AUV-mätningar och satellitdata för att följa och mäta algblomningar och havsfrontar.

Dessa hydrobatiska förmågor överförs på ett säkert sätt till den verkliga världen genom ett cyberfysiskt system (CPS). Simulatormiljöer är integrerade med robotsystemet, vilket möjliggör förvalidering av styrenheter och mjukvara innan hårdvaruinstallation. Den lilla och hydrobatiska AUV:n SAM (SAM: Small and Affordable Maritime robot), egenutvecklad på KTH som en del av Swedish Maritime Robotics Centre, används som testplattform. CPS-konceptet demonstreras under fältförhållanden med SAM AUV. Applikationer inkluderar sökuppdrag av ett nedsänkt föremål, inspektioner av infrastruktur för havsbruk samt spårning av algblomning.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2023. p. 84
Series
TRITA-SCI-FOU ; 2023:44
Keywords
utonomous Underwater Vehicles, Underactuated Systems, Model Predictive Control, Hybrid Systems, Simulation, System Identification, Adaptive Sampling, Cyber-physical Systems., Autonoma Undervattensfarkoster (AUV), Modellering, Simulering, Modelprediktiv kontroll(MPC), Systemidentifiering, Adaptiv mätning, Fältförsök, Cyber-fysikaliska System(CPS).
National Category
Robotics and automation
Research subject
Vehicle and Maritime Engineering
Identifiers
urn:nbn:se:kth:diva-336526 (URN)978-91-8040-684-0 (ISBN)
Public defence
2023-10-06, https://kth-se.zoom.us/j/65770305868, Kollegiesalen, Brinellvägen 8, Stockholm, 14:00 (English)
Opponent
Supervisors
Funder
Swedish Foundation for Strategic Research
Available from: 2023-09-13 Created: 2023-09-12 Last updated: 2026-02-27Bibliographically approved

Open Access in DiVA

No full text in DiVA

Authority records

Bhat, SriharshaStenius, Ivan

Search in DiVA

By author/editor
Wozniak, GrzegorzBhat, SriharshaStenius, Ivan
By organisation
Robotics, Perception and Learning, RPLLättkonstruktioner, marina system, flyg- och rymdteknik, rörelsemekanik
Robotics and automation

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 494 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf