Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Deep predictive policy training using reinforcement learning
KTH, Skolan för datavetenskap och kommunikation (CSC), Robotik, perception och lärande, RPL.ORCID-id: 0000-0001-6738-9872
KTH, Skolan för datavetenskap och kommunikation (CSC), Robotik, perception och lärande, RPL.ORCID-id: 0000-0002-4266-6746
KTH, Skolan för datavetenskap och kommunikation (CSC), Robotik, perception och lärande, RPL.ORCID-id: 0000-0003-2965-2953
KTH, Skolan för datavetenskap och kommunikation (CSC), Robotik, perception och lärande, RPL.
2017 (Engelska)Ingår i: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2017, Institute of Electrical and Electronics Engineers (IEEE), 2017, s. 2351-2358, artikel-id 8206046Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Skilled robot task learning is best implemented by predictive action policies due to the inherent latency of sensorimotor processes. However, training such predictive policies is challenging as it involves finding a trajectory of motor activations for the full duration of the action. We propose a data-efficient deep predictive policy training (DPPT) framework with a deep neural network policy architecture which maps an image observation to a sequence of motor activations. The architecture consists of three sub-networks referred to as the perception, policy and behavior super-layers. The perception and behavior super-layers force an abstraction of visual and motor data trained with synthetic and simulated training samples, respectively. The policy super-layer is a small subnetwork with fewer parameters that maps data in-between the abstracted manifolds. It is trained for each task using methods for policy search reinforcement learning. We demonstrate the suitability of the proposed architecture and learning framework by training predictive policies for skilled object grasping and ball throwing on a PR2 robot. The effectiveness of the method is illustrated by the fact that these tasks are trained using only about 180 real robot attempts with qualitative terminal rewards.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE), 2017. s. 2351-2358, artikel-id 8206046
Nationell ämneskategori
Robotteknik och automation
Identifikatorer
URN: urn:nbn:se:kth:diva-224269DOI: 10.1109/IROS.2017.8206046ISI: 000426978202071Scopus ID: 2-s2.0-85041944294ISBN: 9781538626825 (tryckt)OAI: oai:DiVA.org:kth-224269DiVA, id: diva2:1190800
Konferens
2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2017, Vancouver, Canada, 24 September 2017 through 28 September 2017
Forskningsfinansiär
VetenskapsrådetEU, Horisont 2020
Anmärkning

QC 20180315

Tillgänglig från: 2018-03-15 Skapad: 2018-03-15 Senast uppdaterad: 2020-02-25Bibliografiskt granskad
Ingår i avhandling
1. Sensorimotor Robot Policy Training using Reinforcement Learning
Öppna denna publikation i ny flik eller fönster >>Sensorimotor Robot Policy Training using Reinforcement Learning
2018 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Robots are becoming more ubiquitous in our society and taking over many tasks that were previously considered as human hallmarks. Many of these tasks, e.g., autonomously driving a car, collaborating with humans in dynamic and changing working conditions and performing household chores, require human-level intelligence to perceive the world and to act appropriately. In this thesis, we pursue a different approach compared to classical methods that often construct a robot controller based on the perception-then-action paradigm. We devise robotic action-selection policies by considering action-selection and perception processes as being intertwined, emphasizing that perception comes prior to action and action is key to perception. The main hypothesis is that complex robotic behaviors come as the result of mastering sensorimotor contingencies (SMCs), i.e., regularities between motor actions and associated changes in sensory observations, where SMCs can be seen as building blocks to skillful behaviors. We elaborate and investigate this hypothesis by deliberate design of frameworks which enable policy training merely based on data experienced by a robot,without intervention of human experts for analytical modelings or calibrations. In such circumstances, action policies can be obtained by reinforcement learning (RL) paradigm by making exploratory action decisions and reinforcing patterns of SMCs that lead to reward events for a given task. However, the dimensionality of sensorimotor spaces, complex dynamics of physical tasks, sparseness of reward events, limited amount of data from real-robot experiments, ambiguities of crediting past decisions and safety issues, which arise from exploratory actions of a physical robot, pose challenges to obtain a policy based on data-driven methods alone. In this thesis, we introduce our contributions to deal with the aforementioned issues by devising learning frameworks which endow a robot with the ability to integrate sensorimotor data to obtain action-selection policies. The effectiveness of the proposed frameworks is demonstrated by evaluating the methods on a number of real robotic tasks and illustrating the suitability of the methods to acquire different skills, to make sequential action-decisions in high-dimensional sensorimotor spaces, with limited data and sparse rewards.

Abstract [sv]

Robotar förekommer alltmer i dagens samhälle och tar över många av de uppgifter som tidigare betraktades som tillägnade människor. Flera av dessa uppgifter, som att exempelvis autonomt köra en bil, samarbeta med människor i dynamiska och föränderliga arbetsmiljöer, samt att utföra sysslor i hemmet, kräver mänsklig intelligens för att roboten ska uppfatta världen och agera på lämpligt sätt. I denna avhandling utgår vi ifrån ett annat tillvägagångssätt jämfört med de klassiska metoder för skapande av robotsystem som tidigare ofta byggde på en så kallad perception-then-action paradigm. Vi utformar strategier för val av robotaktioner genom att utgå ifrån att det finns ett önsesidigt beroende mellan perception och aktion, där perception kommer före aktion, samtidigt som aktion är nödvändigt för perception. Huvudhypotesen är att komplexa robotbeteenden kommer som ett resultat av att roboten lär sig bemästra så kallade sensorimotorkopplingar (SMC), dvs regelbundenheter mellan motoriska aktioner och dess motsvarande förändringar i sensoriska observationer, där SMC:ar kan ses som byggblock för komplexa beteenden. Vi utarbetar och undersöker denna hypotes genom att avsiktligt utforma en handfull robotexperiment där en robots kunskaper helt förvärvas utifrån sensorimotoriska data, utan intervention av mänskliga experter för analytisk modellering eller kalibreringar. Under sådana omständigheter är så kallad reinforcement learning (RL) en lämplig paradigm för val av aktioner, en paradigm helt baserad på sensoriska data och utförda motoraktioner, utan krav på handgjorda representationer av världen på hög nivå. Denna paradigm kan utnyttjas för att generera utforskande rörelsemönster och förstärka de sensorimotorkopplingar som leder till framgång för i viss given uppgift. Det finns dock flera faktorer som kompicerar sådan rent datadriven inlärning av beteenden, såsom den sensorimotoriska datans höga dimensionalitet, den fysiska uppgiftens komplexa dynamik, bristen och tvetydigheten i de experiment som leder till positiva utfall, den begränsade mängd experiment som kan göras på en verklig robot och säkerhetsaspekter. De bidrag som introduceras i denna avhandling avser att hantera ovannämnda problem, genom att skapa ramverk för inlärning som gör det möjligt för en robot att integrera sensorimotordata för inlärning av stratieger för val av aktioner. De föreslagna ramverkens effektivitet demonsteras genom att utvärdera metoder på ett antal verkliga robotuppgifter och illustrera metodernas lämplighet för inlärning av olika färdigheter som kräver sekvenser av aktioner utifrån högdimensionell sensorimotorisk data, trots en begränsad mängd experiment med positivt utfall.

Ort, förlag, år, upplaga, sidor
KTH Royal Institute of Technology, 2018. s. 80
Serie
TRITA-EECS-AVL ; 2018:47
Nyckelord
Reinforcement Learning, Artificial Intelligence, Robot Learning, Sensorimotor, Policy Training
Nationell ämneskategori
Data- och informationsvetenskap
Forskningsämne
Datalogi
Identifikatorer
urn:nbn:se:kth:diva-228295 (URN)978-91-7729-825-0 (ISBN)
Disputation
2018-06-11, F3, Lindstedtsvägen 26, Stockholm, 14:00 (Engelska)
Opponent
Handledare
Anmärkning

QC 20180521

Tillgänglig från: 2018-05-21 Skapad: 2018-05-21 Senast uppdaterad: 2018-05-21Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Personposter BETA

Ghadirzadeh, AliMaki, Atsuto

Sök vidare i DiVA

Av författaren/redaktören
Ghadirzadeh, AliMaki, AtsutoKragic, DanicaBjörkman, Mårten
Av organisationen
Robotik, perception och lärande, RPL
Robotteknik och automation

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 1709 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf