14

Persistence Length Based Exploration for Continuous Control Riashat Islam (Joint work with Maziar Gomrokchi, Susan Amin & Doina Precup) Reasoning and Learning Lab 20th April 2017

Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Download PDF Report

Upload
others
View
3
Download
0

Embed Size (px)

Citation preview

Page 1: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Persistence Length Based Exploration forContinuous Control

Riashat Islam(Joint work with Maziar Gomrokchi, Susan Amin & Doina Precup)

Reasoning and Learning Lab

20th April 2017

Page 2: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Deep Reinforcement LearningLocomotion Tasks

Page 3: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Exploration in Continuous Control

I Exploring environment ←→ Exploiting good behaviour

I In continuous control :default exploration is through random control noise

I High dimensional continous actionsI Many directed exploration methods (ε-greedy, Boltzmann) are

limited to discrete action spacesI Current exploration strategies are insufficient

We propose trajectory based exploration method suited forcontinuous control tasks

Page 4: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Motivation

Off-Policy Actor-Critic

I DDPG in continuous control[Lillicrap et. al., 2016, Silver

et. al., 2014]

However, no good exploration strategy to collect off-policy samples

I this talk : propose exploration method for off-policyactor-critic for continuous control

I Related current benchmark :VIME in on-policy TRPO [Houthooft et. al., 2016]

Page 5: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Persistence Length Exploration

Intuition :

I Choice of next exploratory action should dependent on thetrajectory so far

I Trajectories should fill up the entire state space

Page 6: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Persistence Length Exploration

I Mechanism of locally self avoiding random walk

I Adopted from physics literature to describe behaviour ofpolymer chains

I Consider trajectory upto current state to decide next action

I Pure exploration → plan trajectory to fill up entireenvironment

Page 7: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Persistence Length Exploration

I Self avoiding chains ind-dimensional action space

I Self avoiding trajectory

I Travel quickly aroundenvironment depending onparameterization

I Persistence length Lpquantifies stiffness of thechain

Page 8: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

PolyRL + DDPG

Page 9: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

PolyRL Exploration (2D Action Space)

(a) Episode 1 (b) Episode 2

Figure: Exploratory action trajectory

Page 10: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

PolyRL + DDPG (MuJoCo Hopper)

Page 11: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

PolyRL + DDPG (MuJoCo Swimmer)

Page 12: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Policy Gradients on MuJoCo Tasks

Few Benchmark Results (Max Return)Task Action Dim TRPO DDPGSwimmer 2D 110 150Reacher 2D -6.7 -6.6Hopper 3D 2486 2604HalfCheetah 6D 4734 7490Walker 6D 3567 3626Humanoid 17D 918 552

Page 13: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Current Benchmark - VIMEMuJoCo Walker2D, Swimmer

Page 14: Persistence Length Based Exploration for Continuous Control · 2017-06-11 · Motivation O -Policy Actor-Critic I DDPG in continuous control Lillicrap et. al., 2016, Silver et. al.,

Thank You

Questions...

CONTINUOUS PRACTICES€¦ · From continuous testing, continuous development, and continuous deployment to continuous integration and continuous improvement, our development cycles

CONTINUOUS PRACTICES€¦ · From continuous testing, continuous development, and continuous deployment to continuous integration and continuous improvement, our development cycles

Documents

TECHNICAL GUIDANCE MATERIAL Operations Advisory Circulars for... · 2020. 12. 7. · DDPG Dispatch Deviations Procedures Guide EASA European Aviation Safety Agency FOI Flight Operations

TECHNICAL GUIDANCE MATERIAL Operations Advisory Circulars for... · 2020. 12. 7. · DDPG Dispatch Deviations Procedures Guide EASA European Aviation Safety Agency FOI Flight Operations

Documents

Reinforcement Learning with MATLAB & SimulinkCode for Configuring Agent and Training. 17 Create Critic Network. 18 Create Actor Network. 19 Create DDPG Agent. 20 Training the Agent

Reinforcement Learning with MATLAB & SimulinkCode for Configuring Agent and Training. 17 Create Critic Network. 18 Create Actor Network. 19 Create DDPG Agent. 20 Training the Agent

Documents

Robot Navigation: From Abilities to Capabilities€¦ · Handles task and robot dynamics Helicopter image from [Kober et al, ‘13] Learning Navigation Task 22x18 m [Lillicrap et

Robot Navigation: From Abilities to Capabilities€¦ · Handles task and robot dynamics Helicopter image from [Kober et al, ‘13] Learning Navigation Task 22x18 m [Lillicrap et

Documents

SOC E CONTINUOUS MONITORING - clusit.it e Continuous...Monitoring Continuous

SOC E CONTINUOUS MONITORING - clusit.it e Continuous...Monitoring Continuous

Documents

Deterministic Diagnostic Pattern Generation (DDPG) for Compound Defects

Deterministic Diagnostic Pattern Generation (DDPG) for Compound Defects

Documents

Self-Adaptive Double Bootstrapped DDPG - IJCAI · Self-Adaptive Double Bootstrapped DDPG Zhuobin Zheng12, Chun Yuan2, Zhihui Lin12, Yangyang Cheng12, Hanghao Wu12 1 Department of

Self-Adaptive Double Bootstrapped DDPG - IJCAI · Self-Adaptive Double Bootstrapped DDPG Zhuobin Zheng12, Chun Yuan2, Zhihui Lin12, Yangyang Cheng12, Hanghao Wu12 1 Department of

Documents

David Lillicrap Department of Pathology and Molecular ......Laboratory testing for the diagnosis and monitoring of therapy in hemophilia. David Lillicrap. Department of Pathology and

David Lillicrap Department of Pathology and Molecular ......Laboratory testing for the diagnosis and monitoring of therapy in hemophilia. David Lillicrap. Department of Pathology and

Documents

Challenges in the Diagnosis and Management of Hemophilia · David Lillicrap Department of Pathology and Molecular Medicine Queen’s University, Kingston, Canada March 2014 Challenges

Challenges in the Diagnosis and Management of Hemophilia · David Lillicrap Department of Pathology and Molecular Medicine Queen’s University, Kingston, Canada March 2014 Challenges

Documents

Case no 410/82 MC (APPELLATE DIVISION) LILLICRAP WASSENAAR ... · case no 410/82 mc in the supreme court of south africa (appellate division) between: lillicrap wassenaar and partners

Case no 410/82 MC (APPELLATE DIVISION) LILLICRAP WASSENAAR ... · case no 410/82 mc in the supreme court of south africa (appellate division) between: lillicrap wassenaar and partners

Documents

Deep networks for model-based Research Scientist, …cis522/slides/CIS522_Lecture12T.pdfUPenn CIS 522 Guest Lecture | April 2020 Timothy Lillicrap Research Scientist, DeepMind & UCL

Deep networks for model-based Research Scientist, …cis522/slides/CIS522_Lecture12T.pdfUPenn CIS 522 Guest Lecture | April 2020 Timothy Lillicrap Research Scientist, DeepMind & UCL

Documents

“Continuous monitoring en continuous auditing: continuous ... · Continuous auditing en continuous monitoring: continuous solutions? Teamnummer 612 1 Management samenvatting Algemeen

“Continuous monitoring en continuous auditing: continuous ... · Continuous auditing en continuous monitoring: continuous solutions? Teamnummer 612 1 Management samenvatting Algemeen

Documents

Non-alcoholic beverages. Published by Hodder Education J Cousins, D Lillicrap and S Weekes Tea Prepared from the top leaves of the tropical evergreen

Non-alcoholic beverages. Published by Hodder Education J Cousins, D Lillicrap and S Weekes Tea Prepared from the top leaves of the tropical evergreen

Documents

Random synaptic feedback weights support error ...clm.utexas.edu/compjclub/wp-content/uploads/2017/03/lillicrap2016.pdf · backpropagation for deep learning Timothy P. Lillicrap 1,2

Random synaptic feedback weights support error ...clm.utexas.edu/compjclub/wp-content/uploads/2017/03/lillicrap2016.pdf · backpropagation for deep learning Timothy P. Lillicrap 1,2

Documents

From Commander Lillicrap

From Commander Lillicrap

Documents

Deep Reinforcement Learning at Scale - GitHub Pages · Deep Reinforcement Learning at Scale Timothy Lillicrap Research Scientist, DeepMind & UCL ... Scaling Reinforcement Learning

Deep Reinforcement Learning at Scale - GitHub Pages · Deep Reinforcement Learning at Scale Timothy Lillicrap Research Scientist, DeepMind & UCL ... Scaling Reinforcement Learning

Documents

Jonah Philion Anqi (Joyce) Yang Continuous Control With Deep … · 2020. 5. 1. · Continuous Control With Deep Reinforcement Learning Timothy P. Lillicrap∗ , Jonathan J. Hunt∗

Jonah Philion Anqi (Joyce) Yang Continuous Control With Deep … · 2020. 5. 1. · Continuous Control With Deep Reinforcement Learning Timothy P. Lillicrap∗ , Jonathan J. Hunt∗

Documents

7-1. Continuous Distributions Chapter 77 Continuous Variables Continuous Variables Describing a Continuous Distribution Describing a Continuous Distribution

7-1. Continuous Distributions Chapter 77 Continuous Variables Continuous Variables Describing a Continuous Distribution Describing a Continuous Distribution

Documents

Model-Based RL and Policy Learningrail.eecs.berkeley.edu/deeprlcourse-fa18/static/slides/lec-13.pdf · Which RL algorithm to use? are you learning in a simulator? DDPG, NAF, SQL,

Model-Based RL and Policy Learningrail.eecs.berkeley.edu/deeprlcourse-fa18/static/slides/lec-13.pdf · Which RL algorithm to use? are you learning in a simulator? DDPG, NAF, SQL,

Documents

Continuous Integration & Continuous Delivery

Continuous Integration & Continuous Delivery

Software

Service areas and equipment. Published by Hodder Education J Cousins, D Lillicrap and S Weekes The stillroom Provides items of food and beverages required

Service areas and equipment. Published by Hodder Education J Cousins, D Lillicrap and S Weekes The stillroom Provides items of food and beverages required

Documents

Continuous control with deep reinforcement learning (DDPG)

Continuous control with deep reinforcement learning (DDPG)

Technology

Pathology 430/826 Thrombosis David Lillicrap. Cardiovascular Disease 30% of all deaths in Canada 54% ischemic heart disease 20% stroke 23% heart attack

Pathology 430/826 Thrombosis David Lillicrap. Cardiovascular Disease 30% of all deaths in Canada 54% ischemic heart disease 20% stroke 23% heart attack

Documents

“Continuous monitoring en continuous auditing: continuous ......Relatie continuous monitoring en continuous auditing Het continuous monitoringsproces kan zowel de organisaties zelf

“Continuous monitoring en continuous auditing: continuous ......Relatie continuous monitoring en continuous auditing Het continuous monitoringsproces kan zowel de organisaties zelf

Documents

Continuous Integration, Continuous Quality, Continuous Delivery

Continuous Integration, Continuous Quality, Continuous Delivery

Technology

Tests of Hemostasis Path 430/826 David Lillicrap Department of Pathology and Molecular Medicine Queen’s University, Kingston, Canada

Tests of Hemostasis Path 430/826 David Lillicrap Department of Pathology and Molecular Medicine Queen’s University, Kingston, Canada

Documents

Toward Low-Flying Autonomous MAV Trail Navigation using ... · Toward Low-Flying Autonomous MAV Trail Navigation using Deep ... video games using DRL. Similarly, Lillicrap et al

Toward Low-Flying Autonomous MAV Trail Navigation using ... · Toward Low-Flying Autonomous MAV Trail Navigation using Deep ... video games using DRL. Similarly, Lillicrap et al

Documents

DDPG++: Striving for Simplicity in Continuous-control Off

DDPG++: Striving for Simplicity in Continuous-control Off

Documents

Bookings, billing and revenue control. Published by Hodder Education J Cousins, D Lillicrap and S Weekes Bookings may be taken: by post by email

Bookings, billing and revenue control. Published by Hodder Education J Cousins, D Lillicrap and S Weekes Bookings may be taken: by post by email

Documents

Model-based Deep Reinforcement Learning for Financial Portfolio ... · recommendation systems (Lillicrap et al.,2015;Silver et al., 2016;Mnih et al.,2015;2016). However, its applications

Model-based Deep Reinforcement Learning for Financial Portfolio ... · recommendation systems (Lillicrap et al.,2015;Silver et al., 2016;Mnih et al.,2015;2016). However, its applications

Documents