Deep RL in continuous action spaces - ETH Z...Trust Region Policy Optimization, Schulman et al. 2015...

Deep RL in continuous action spaces

On-Policy set up

-- Samriddhi Jain

Discrete action environments

● Atari, Board games

Continuous action environments

● MuJoCo (Multi-Joint dynamics with Contact) environments

Continuous action environments

● Simulated goal-based tasks for the Fetch and ShadowHand robots

https://openai.com/blog/ingredients-for-robotics-research/

Handling continuous actions

Policy Network

Distribution Parameters

Control

Sampling

Policy Gradients: review

Pitfalls:● Sample inefficiency

Policy Gradients: step size and convergence

Policy Gradients: pitfalls

● Relation between policy space and model parameter space?

Research works covered

● Approximately Optimal Approximate Reinforcement Learning, Kakade and

Langford 2002

● Trust Region Policy Optimization, Schulman et al. 2015

● Proximal Policy Optimization Algorithms, Schulman et al. 2017

Surrogate Loss

● How to improve sample efficiency?○ Use trajectories from other policies with importance sampling

● Gradients are same

Trust Region Methods

Search in a trusted region

https://reference.wolfram.com/language/tutorial/UnconstrainedOptimizationTrustRegionMethods.htmlhttps://optimization.mccormick.northwestern.edu/index.php/Trust-region_methods

Line search vs Trust region search

New loss

● Constrained:

● Penalty:

In practise, 𝛽 is harder to tune than ẟ.

Minorize Maximization theorem

By Kakade and Langford (2002)

Local approximation

Sample based estimation

Natural Policy Gradients

● Approximate using taylor expansion:

Loss reduces to the first order term, constraint to second order term

Natural Policy Gradients

Computationally (very?) expensive

Truncated Natural Policy Gradient

● Solutions:

○ Use kronecker vector product: ACKTR

○ Use Conjugate gradients to compute H-1g without actually inverting H:

Truncated Natural Policy Gradient

Line search for TRPO

● With the quadratic approximations, the constraint may be violated

● Solution: Enforce KL constraint, backtracking line search with exponential decay

Trust Region Policy Optimization

Results

Issues with TRPO

● Doesn’t work well with CNNs and RNNs

● Scalability

● Complexity

Proximal Policy Optimization (PPO)

● Motivation is same as that of TRPO

● Uses first order derivative solutions

● Designed to be simpler to implement

● Two versions:

○ PPO Penalty

○ PPO Clip

https://openai.com/blog/openai-baselines-ppo/

PPO adaptive KL penalty

● Considers the unconstrained objective

● Updates 𝛽k between iterations

○ If d < dtarg/1.5, 𝛽k ← 𝛽k/ 2

○ If d > dtarg × 1.5, 𝛽k←𝛽k× 2

PPO Clip objective

Surrogate objectives

PPO actor pseudocode

Sample efficient version of PPO

Results

Discussion

● Implementation matters

Implementation Matters in Deep RL: A Case Study on PPO and TRPO, https://openreview.net/forum?id=r1etN1rtPB

References

● Trust Region Policy Optimization (https://arxiv.org/pdf/1502.05477.pdf)● Constrained Policy Optimization, Achiam et al. 2017 (https://arxiv.org/pdf/1705.10528.pdf)● Proximal Policy Optimization Algorithms (https://arxiv.org/pdf/1707.06347.pdf)● Spinning Up in Deep RL (https://spinningup.openai.com/en/latest/index.html)● UC Berkeley Deep RL course

(http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_13_advanced_pg.pdf)● Deep RL Bootcamp (https://sites.google.com/view/deep-rl-bootcamp/lectures)● Deep RL Series

(https://medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-part-2-f51e3b2e373a)● https://towardsdatascience.com/the-pursuit-of-robotic-happiness-how-trpo-and-ppo-stabilize-policy-g

radient-methods-545784094e3b

Questions?

Deep RL in continuous action spaces - ETH Z...Trust Region Policy Optimization, Schulman et al. 2015...

Documents

Date: January 21, 2020 Trust Region Policy Optimization (TRPO) …wangjk/slides/CS2621_TRPO_PPO.pdf · 2020-02-28 · Trust Region Policy Optimization (TRPO) John Schulman, Sergey

ASSAM TEA- POLICY OPTIMIZATION

Leif Schulman and Mari Miranto

Schulman - HD COMPLICATIONsbns-hungary.hu/documents/16bns/2009bns_0830_0900_02.pdf · hemodialysis complications gerald schulman, md, fasn vanderbilt university school of medicine

Convex Optimization and Applicationsusers.cms.caltech.edu/~schulman/Courses/0405cs286/cvxopt_CMI04.pdfConvex Optimization and Applications LinXiao CenterfortheMathematicsofInformation

PDF - arXiv · Proximal Policy Optimization Algorithms John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov OpenAI fjoschu, filip, prafulla, alec

REBECCA SCHULMAN AND · REBECCA SCHULMAN ... (2007), pp.15236–15241. [43] R. Schulman and E. Winfree, How crystals that sense and respond to their environment could evolve,NaturalComput.,7(2008),

Trust Region Policy Optimizationppoupart/teaching/cs885-spring...Trust Region Policy Optimization John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel @ICML

Policy Optimization via Importance Sampling · Policy Optimization via Importance Sampling (POIS) that mixes online and ofﬂine optimization to efﬁciently exploit the information

Pesticides (Organophosphates & Glyphosates) By Samantha Schulman

Doubly Robust Policy Evaluation and Optimization

Trust Region Policy Optimizationjoschu.net/docs/2016-NIPS-Tutorial.pdfJ. Schulman, S. Levine, P. Moritz, et al.\Trust Region Policy Optimization".In: ICML. 2015 \Proximal" Policy Optimization

Proximal Policy Optimization Algorithms€¦ · Proximal Policy Optimization Algorithms John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov OpenAI fjoschu, filip,

About Jeremy Schulman

Truly Proximal Policy Optimization - arXiv

Policy Optimization as Wasserstein Gradient Flowspeople.ee.duke.edu/~lcarin/gf_reinforcement_icml2018.pdf · policy-improvement property (Schulman et al.,2015), im-plemented by imposing

CONDITION-BASED MAINTENANCE POLICY OPTIMIZATION …

D4.2 - Policy transformation and optimization techniques · Policy transformation and optimization techniques ... Policy transformation and optimization techniques Editor ... deﬁned

Natpet Schulman Specialty Plastic Compounds

Model-Based Reinforcement Learning via Meta-Policy ...h2t.anthropomatik.kit.edu/pdf/Rothfuss2018.pdf · Jonas Rothfuss KIT, UC Berkeley jonas.rothfuss@kit.edu John Schulman OpenAI