Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

Embed Size (px)

Citation preview

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    1/7

    Carnegie Mellon University

    Research Showcase

    Robotics Institute School of Computer Science

    1-1-2001

    Autonomous Helicopter Control UsingReinforcement Learning Policy Search Methods

    J. Andrew BagnellCarnegie Mellon University

    Je G. SchneiderCarnegie Mellon University

    Follow this and additional works at: hp://repository.cmu.edu/robotics

    Part of the Robotics Commons

    Tis Conference Proceeding is brought to you for free and open access by the School of Computer Science at Research Showcase. It has been accepted

    for inclusion in Robotics Institute by an author ized administrator of Research Showcase. For more information, please contactresearch-

    [email protected] .

    Recommended CitationBagnell, J. Andrew and Schneider, Je G., "Autonomous Helicopter Control Using Reinforcement Learning Policy Search Methods"(2001). Robotics Institute. Paper 83.hp://repository.cmu.edu/robotics/83

    http://repository.cmu.edu/?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/robotics?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/scs?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/robotics?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://network.bepress.com/hgg/discipline/264?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPagesmailto:[email protected]:[email protected]://repository.cmu.edu/robotics/83?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPagesmailto:[email protected]:[email protected]://repository.cmu.edu/robotics/83?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://network.bepress.com/hgg/discipline/264?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/robotics?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/scs?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/robotics?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPageshttp://repository.cmu.edu/?utm_source=repository.cmu.edu%2Frobotics%2F83&utm_medium=PDF&utm_campaign=PDFCoverPages
  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    2/7

    A u t o n o m o u s H e l i c o p t e r C o n t r o l u s i n g

    R e i n f o r c e m e n t L e a r n i n g P o l i c y S e a r c h M e t h o d s

    J . A n d r e w B a g n e l l , J e G . S c h n e i d e r

    A b s t r a c t | M a n y c o n t r o l p r o b l e m s i n t h e r o b o t i c s e l d

    c a n b e c a s t a s P a r t i a l l y O b s e r v e d M a r k o v i a n D e c i s i o n

    P r o b l e m s P O M D P s , a n o p t i m a l c o n t r o l f o r m a l i s m .

    F i n d i n g o p t i m a l s o l u t i o n s t o s u c h p r o b l e m s i n g e n e r a l ,

    h o w e v e r i s k n o w n t o b e i n t r a c t a b l e . I t h a s o f t e n b e e n

    o b s e r v e d t h a t i n p r a c t i c e , s i m p l e s t r u c t u r e d c o n t r o l l e r s

    s u c e f o r g o o d s u b - o p t i m a l c o n t r o l , a n d r e c e n t r e s e a r c h

    i n t h e a r t i c i a l i n t e l l i g e n c e c o m m u n i t y h a s f o c u s e d o n p o l -

    i c y s e a r c h m e t h o d s a s t e c h n i q u e s f o r n d i n g s u b - o p t i m a l

    c o n t r o l l e r s w h e n s u c h s t r u c t u r e d c o n t r o l l e r s d o e x i s t . T r a -

    d i t i o n a l m o d e l - b a s e d r e i n f o r c e m e n t l e a r n i n g a l g o r i t h m s

    m a k e a c e r t a i n t y e q u i v a l e n c e a s s u m p t i o n o n t h e i r l e a r n e d

    m o d e l s a n d c a l c u l a t e o p t i m a l p o l i c i e s f o r a m a x i m u m -

    l i k e l i h o o d M a r k o v i a n m o d e l . I n t h i s w o r k , w e c o n s i d e r

    a l g o r i t h m s t h a t e v a l u a t e a n d s y n t h e s i z e c o n t r o l l e r s u n -

    d e r d i s t r i b u t i o n s o f M a r k o v i a n m o d e l s . P r e v i o u s w o r k h a s

    d e m o n s t r a t e d t h a t a l g o r i t h m s t h a t m a x i m i z e m e a n r e w a r d

    w i t h r e s p e c t t o m o d e l u n c e r t a i n t y l e a d s t o s a f e r a n d m o r e

    r o b u s t c o n t r o l l e r s . W e c o n s i d e r b r i e y o t h e r p e r f o r m a n c e

    c r i t e r i o n t h a t e m p h a s i z e r o b u s t n e s s a n d e x p l o r a t i o n i n t h e

    s e a r c h f o r c o n t r o l l e r s , a n d n o t e t h e r e l a t i o n w i t h e x p e r i -

    m e n t d e s i g n a n d a c t i v e l e a r n i n g . T o v a l i d a t e t h e p o w e r

    o f t h e a p p r o a c h o n a r o b o t i c a p p l i c a t i o n w e d e m o n s t r a t e

    t h e p r e s e n t e d l e a r n i n g c o n t r o l a l g o r i t h m b y y i n g a n a u -

    t o n o m o u s h e l i c o p t e r . W e s h o w t h a t t h e c o n t r o l l e r l e a r n e d

    i s r o b u s t a n d d e l i v e r s g o o d p e r f o r m a n c e i n t h i s r e a l - w o r l d

    d o m a i n .

    I . I n t r o d u c t i o n

    R

    E C E N T L Y t h e r e h a s b e e n a g r e a t d e a l o f i n t e r e s t

    i n a p p l y i n g l e a r n i n g f o r c o n t r o l a n d p l a n n i n g i n

    r o b o t i c s a n d a u t o m a t e d s y s t e m s . L e a r n i n g c o n t r o l " e n -

    t i c e s u s w i t h t h e p r o m i s e o f o b v i a t i n g t h e n e e d f o r t h e

    t e d i o u s d e v e l o p m e n t o f c o m p l e x r s t p r i n c i p l e m o d e l s

    s e e t h e c u r s e o f m o d e l i n g " 1 , a n d s u g g e s t a v a r i e t y

    o f m e t h o d s f o r s y n t h e s i z i n g c o n t r o l l e r s b a s e d o n e x p e -

    r i e n c e g e n e r a t e d f r o m r e a l s y s t e m s . B u t r e i n f o r c e m e n t

    l e a r n i n g a l g o r i t h m s , p a r t i c u l a r l y a p p l i e d t o r e a l s y s t e m s

    w h e r e g a t h e r i n g d a t a i s c o s t l y a n d p o t e n t i a l l y d a n g e r -

    o u s , o f t e n i n c l u d e t h e n e e d t o l e a r n s o m e f o r m o f s y s -

    t e m m o d e l e i t h e r i m p l i c i t l y o r e x p l i c i t l y w h i l e d e t e r -

    m i n i n g a n o p t i m a l p o l i c y , s o a s t o b e e c i e n t w i t h t h e

    d a t a a v a i l a b l e . T r a d i t i o n a l m o d e l - b a s e d r e i n f o r c e m e n t

    l e a r n i n g a l g o r i t h m s m a k e a c e r t a i n t y e q u i v a l e n c e a s s u m p -

    t i o n o n t h e i r l e a r n e d m o d e l s a n d c a l c u l a t e o p t i m a l p o l i -

    c i e s , u s i n g s o m e v a r i a n t o n d y n a m i c p r o g r a m m i n g , f o r

    a m a x i m u m - l i k e l i h o o d M a r k o v i a n m o d e l . I t i s o u r c o n -

    t e n t i o n t h a t t h e s e t e c h n i q u e s f a c e s e r i o u s d i c u l t i e s i n

    D r e w B a g n e l l a n d J e S c h n e i d e r a r e w i t h C a r n e g i e

    M e l l o n ' s R o b o t i c s I n s t i t u t e , E - m a i l : d b a g n e l l @ i e e e . o r g ,

    J e . S c h n e i d e r @ r i . c m u . e d u .

    t h e a p p l i c a t i o n t o r o b o t i c s .

    F i r s t , i n n e a r l y a l l i n t e r e s t i n g r e a l - w o r l d s y s t e m s w e

    c a n n o t o b s e r v e t h e a c t u a l s t a t e o f t h e s y s t e m a s i n a

    M a r k o v D e c i s i o n P r o c e s s M D P , b u t r a t h e r a t b e s t s e e

    s o m e n o i s y f u n c t i o n o f i t , a s i n a P a r t i a l l y O b s e r v e d M D P

    P O M D P . L e a r n i n g s y s t e m s s h o u l d b e d e s i g n e d t o e x -

    p l i c i t l y a c c o u n t f o r t h e r e s u l t i n g v i o l a t i o n s o f t h e M a r k o v

    p r o p e r t y .

    S e c o n d , p h y s i c a l s y s t e m s a r e o f t e n h i g h - d i m e n s i o n a l

    s o t h a t i t i s q u i t e i m p o s s i b l e t o h a v e d a t a f o r a l l p a r t s

    o f s t a t e - s p a c e . I t i s a l s o u n l i k e l y t h a n a n y m o d e l u s e d

    b y t h e l e a r n i n g a l g o r i t h m i s c a p a b l e o f c a p t u r i n g a l l o f

    t h e s u b t l e t y o f t h e r e a l s y s t e m d y n a m i c s , s o w e w o u l d

    l i k e l e a r n i n g c o n t r o l a l g o r i t h m s t o e x h i b i t s o m e d e g r e e

    o f r o b u s t n e s s t o u n d e r m o d e l i n g . F u r t h e r , e v e n g i v e n a

    g o o d m o d e l , t h e c o m p l e x i t y o f b u i l d i n g o p t i m a l p o l i c i e s

    t y p i c a l l y r i s e s e x p o n e n t i a l l y i n t h e n u m b e r o f d i m e n s i o n s .

    T h e c u r s e o f d i m e n s i o n a l i t y " , 2 .

    F i n a l l y , l e a r n i n g s y s t e m s , a n d p a r t i c u l a r l y t h o s e o p e r -

    a t i n g i n t h e p h y s i c a l w o r l d w h e r e e x p e r i m e n t s a r e c o s t l y

    a n d t i m e - c o n s u m i n g , m u s t f a c e t h e w e l l - k n o w e x p l o -

    r a t i o n e x p l o i t a t i o n d i l e m m a . T h e l e a r n i n g s y s t e m m u s t

    t r a d e o : 1 t h e d e s i r e t o i m p r o v e a m o d e l b y t r y i n g

    o u t a c t i o n s a n d s t a t e s t h a t h a v e n o t b e e n w e l l e x p l o r e d

    w h i c h c o u l d i m p r o v e i t s o v e r a l l p e r f o r m a n c e i n t h e f u -

    t u r e , a n d 2 t h e d e s i r e t o t a k e a c t i o n s t h a t a r e k n o w n

    t o b e g o o d w h i c h y i e l d s b e t t e r n e a r - t e r m p e r f o r m a n c e .

    T h e e x p l o r a t i o n e x p l o i t a t i o n p r o b l e m h a s r e c e i v e d c o n -

    s i d e r a b l e a t t e n t i o n . D e v e l o p i n g s t r a t e g i e s t o e x p l o r e a n d

    e x p l o i t e c i e n t l y i s a n e x t r e m e l y d i c u l t p r o b l e m e s -

    p e c i a l l y u n d e r c o n s t r a i n t s t h a t a r e o f t e n p r e s e n t i n r e a l

    s y s t e m s . A s a n e x a m p l e , c o n s i d e r a h e l i c o p t e r l e a r n i n g

    i t s d y n a m i c s a n d a c o n t r o l p o l i c y . W e w a n t t o e n s u r e

    t h a t i t w i l l n o t c r a s h w h i l e l e a r n i n g , o r o p e r a t i n g u n d e r

    a p o l i c y d e r i v e d f r o m a l e a r n e d m o d e l . I n t i m a t e l y t i e d

    t o t h i s e x p l o r a t i o n e x p l o i t a t i o n t r a d e - o i s t h e i s s u e o f

    b u i l d i n g c o n t r o l l e r s t h a t a r e e x p l o r a t i o n o r r i s k - s e n s i t i v e .

    R e c e n t r e s e a r c h i n t h e a r t i c i a l i n t e l l i g e n c e c o m m u n i t y

    h a s f o c u s e d o n p o l i c y s e a r c h m e t h o d s a s t e c h n i q u e s t o

    a m e l i o r a t e t h e r s t t w o d i c u l t i e s m e n t i o n e d a b o v e . W e

    a r g u e i n t h i s p a p e r t h a t w i t h a p p r o p r i a t e p e r f o r m a n c e

    m e t r i c s a n d a l g o r i t h m s , p o l i c y s e a r c h n a t u r a l l y e x t e n d s

    t o e v a l u a t i n g a n d s y n t h e s i z i n g c o n t r o l l e r s u n d e r d i s t r i b u -

    t i o n s o f M a r k o v i a n m o d e l s , a l l o w i n g u s t o a d d r e s s i s s u e s

    o f r o b u s t n e s s a n d e x p l o r a t i o n .

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    3/7

    A l t h o u g h i n p r i n c i p l e , w e c a n d e a l w i t h u n c e r t a i n t y i n

    m o d e l i n g a n d n o i s y o b s e r v a t i o n s o p t i m a l l y " b y v a l u e -

    i t e r a t i o n o f a P a r t i a l l y - O b s e r v e d M a r k o v D e c i s i o n P r o -

    c e s s , t h e c o m p u t a t i o n a l c o m p l e x i t y i s o v e r w h e l m i n g . I t

    i s n o t e v e n k n o w n i f n d i n g t h e o p t i m a l p o l i c y i n a d i s -

    c o u n t e d P O M D P i s c o m p u t a b l e . T h e c e n t r a l i d e a o f

    p o l i c y s e a r c h i s t o r e s t r i c t t h e c l a s s o f a l l o w e d c o n t r o l l e r s .

    I t h a s o f t e n b e e n o b s e r v e d t h a t i n p r a c t i c e , s i m p l e s t r u c -

    t u r e d c o n t r o l l e r s s u c e f o r g o o d s u b - o p t i m a l c o n t r o l , a n d

    h e n c e r e c e n t r e s e a r c h h a s f o c u s e d o n p o l i c y s e a r c h m e t h -

    o d s a s t e c h n i q u e s f o r n d i n g g o o d s u b - o p t i m a l c o n t r o l l e r s

    w h e n s u c h s t r u c t u r e d c o n t r o l l e r s d o e x i s t . P o l i c y s e a r c h

    p r o v i d e s a w a y t o c o m b a t t h e c o m p u t a t i o n a l c o m p l e x i t y

    i s s u e s i n t r o d u c e d b y t h e p r o b l e m s a b o v e , a n d r e q u i r e s

    o n l y a f o r m o f s i m u l a t o r , a m o r e c o m p a c t r e p r e s e n t a t i o n

    t h a n e x p l i c i t t r a n s i t i o n s a n d c o s t s . B y l i m i t i n g t h e c l a s s

    o f p o l i c i e s t o s e a r c h t h r o u g h , w e c a n p o t e n t i a l l y m u c h

    m o r e r a p i d l y n d a g o o d p o l i c y . F u r t h e r , l i m i t i n g t h e

    c o m p l e x i t y o f t h e c o n t r o l l e r s e r v e s a s a f o r m o f r e g u -

    l a r i z a t i o n " . W i t h o u t s t r u c t u r a l g u a r a n t e e s , i t c o u l d t a k e

    a n i n t r a c t a b l e n u m b e r o f M o n t e - C a r l o r o l l - o u t s o f a p o l -

    i c y o n a s i m u l a t i o n t o e v a l u a t e i t s p e r f o r m a n c e t h e r e

    c o u l d a l w a y s b e s o m e s u b t l e t y t h a t i s n o t a p p a r e n t i n

    a n y r e a s o n a b l e n u m b e r o f e v a l u a t i o n s . T h i s p r o p e r t y i s

    c a p t u r e d i n t h e o r e m s r e l a t i n g t h e u n i f o r m c o n v e r g e n c e o f

    s u c h e s t i m a t e s a n d t h e c o m p l e x i t y o f t h e s e a r c h e d p o l -

    i c y c l a s s . 3 S t r u c t u r e d p o l i c i e s a r e v e r y n a t u r a l i n t h e

    r o b o t i c s e l d a s w e l l . I t i s n a t u r a l t o b u i l d r e s t r i c t i o n

    w e w o u l d l i k e o n t h e c o n t r o l l e r d i r e c t l y i n t o i t s s t r u c t u r e .

    O n e c a n a l s o e a s i l y l i m i t t h e a m o u n t o f c o m p u t a t i o n r e -

    q u i r e d d u r i n g t h e c o n t r o l c y c l e b y s u i t a b l y l i m i t i n g t h e

    c o m p l e x i t y o f t h e c o n t r o l l e r s t r u c t u r e . F i n a l l y , i t i s o f t e n

    t h e c a s e t h a t p h y s i c a l i n s i g h t l e a d s t o g o o d s e l e c t i o n s o f

    c o n t r o l l e r c l a s s .

    A . P r e v i o u s W o r k

    I n 4 , s a f e t y i s a d d r e s s e d b y t r e a t i n g l e a r n e d m o d e l

    u n c e r t a i n t y a s a n o t h e r s o u r c e o f n o i s e t o b e i n c o r p o r a t e d

    i n t o t h e s t o c h a s t i c t r a n s i t i o n s o f a n M D P . G o o d e m p i r -

    i c a l r e s u l t s w e r e o b t a i n e d , b u t t h i s m e t h o d r e l i e s o n a n

    a s s u m p t i o n t h a t m o d e l e r r o r i s u n c o r r e l a t e d t h r o u g h t i m e

    a n d s p a c e , w h i c h i s r a r e l y t h e c a s e . 5 m a k e e x p l o r a t i o n

    d e l i b e r a t i v e a n d g u a r a n t e e n e a r - o p t i m a l p e r f o r m a n c e i n

    p o l y n o m i a l t i m e . A l t h o u g h t h i s l e a d s t o n i c e t h e o r e t i -

    c a l r e s u l t s a b o u t t h e c o m p l e x i t y o f r e i n f o r c e m e n t l e a r n -

    i n g , t h e a g g r e s s i v e e x p l o r a t i o n s u c h a n a l g o r i t h m e n -

    c o u r a g e s i s t h e a n t i t h e s i s o f w h a t w e w o u l d h o p e f o r i n

    b u i l d i n g s a f e c o n t r o l l e r s . T h e l i t e r a t u r e o n t h e e x p l o -

    r a t i o n e x p l o i t a t i o n p r o b l e m i n r e i n f o r c e m e n t l e a r n i n g i s

    e x t e n s i v e . S e e 6 f o r f u r t h e r d i s c u s s i o n o f t h e p r o b l e m .

    I I . P r e l i m i n a r y S e t u p

    W e a d d r e s s r s t t h e f o r m a l i s m n e c e s s a r y t o d i s c u s s o u r

    r e s u l t s . T h e m e a s u r e t h e o r e t i c d e t a i l s a r e o f l i t t l e i m p o r -

    t a n c e a n d c a n b e i g n o r e d w i t h l i t t l e l o s s a s t h e y a r e o n l y

    c o n s i d e r e d t o i n t r o d u c e t h e n o t i o n o f r e - u s i n g s a m p l e s

    i n e v a l u a t i o n s . C o n s i d e r a c o n t r o l l e d s t o c h a s t i c p r o c e s s

    X

    t

    u 0 t 1 o n s o m e p r o b a b i l i t y s p a c e F Q

    t a k i n g v a l u e s i n a s t a t e s p a c e X a n d e n d o w e d w i t h a

    b o u n d e d r e w a r d e q u i v a l e n t l y c o s t f u n c t i o n , R

    m a x

    R x R

    m a x

    o n t h e s t a t e s p a c e . C o n t r o l s u c o m e f r o m

    a s p a c e U t h a t w i l l t y p i c a l l y b e t a k e n t o b e n i t e , a l -

    t h o u g h w i t h s u i t a b l e r e s t r i c t i o n s o n X

    t

    u , c a n a l s o b e a

    t a k e n a s m o r e g e n e r a l c o n t i n u o u s s p a c e s . F o r t h e p r o b a -

    b i l i t y s p a c e w e w i l l t a k e a s a c a n o n i c a l o n e 0 1

    1

    , s o a s

    t o r e f e r t o t h e b i t s o f t h e s a m p l e s p a c e . N o t e t h a t e a c h

    n e x t s t a t e o f t h e p r o c e s s w i l l b e d e t e r m i n e d b y n i t e l y

    m a n y b i t s . T h e s t o c h a s t i c p r o c e s s b e h a v e s , a f t e r a m o d e l

    M a n d i n i t i a l s t a t e i s c h o s e n b y t h e r s t b i t s o f ! , a s a

    M a r k o v p r o c e s s w i t h t r a n s i t i o n k e r n e l P

    u M

    x x , o r a s

    a P a r t i a l l y O b s e r v e d M a r k o v P r o c e s s , w h i c h i s i d e n t i c a l

    e x c e p t t h a t c o n t r o l l e r s o n l y h a v e a c c e s s t o a n o t h e r r a n -

    d o m v a r i a b l e Y , t a k i n g v a l u e s i n a n o b s e r v a t i o n s p a c e

    O O , t h a t i s a m e a s u r a b l e X

    t

    = O . W e w i l l u s u a l l y

    c o n s i d e r c o n t r o l l e r s m a p p i n g X

    t

    t o U a l s o c a l l e d s t r a t e -

    g i e s o r p o l i c i e s h e r e t h a t c o m e f r o m a r e s t r i c t e d c l a s s ,

    d e n o t e d .

    F o r t h e p u r p o s e s o f t h i s p a p e r , w e w i l l c o n s i d e r a l l o -

    l i n e s i m u l a t i o n s t o b e o n a d e t e r m i n i s t i c s i m u l a t i v e m o d e l

    7 w h e r e w e c a n s a m p l e a t y p i c a l e v e n t , ! 2 u n d e r

    t h e d i s t r i b u t i o n Q t h e j o i n t d i s t r i b u t i o n o f i n i t i a l s t a t e s ,

    m o d e l s , a n d M a r k o v n o i s e i n t r a n s i t i o n s a n d o b s e r v a -

    t i o n s a n d t h a t e a c h s u c h ! c a n b e s t o r e d a n d r e - u s e d f o r

    t h e e v a l u a t i n g d i e r e n t c o n t r o l l e r s . D e t e r m i n i s t i c s i m u -

    l a t i v e m o d e l s a r e q u i t e r e a s o n a b l e f o r m o d e l - b a s e d c o m -

    p u t a t i o n s , b u t n o t s o f o r m o d e l - f r e e o n e s . I t e s s e n t i a l l y

    a m o u n t s t o b e i n g a b l e t o r e s e t o n e ' s r a n d o m n u m b e r g e n -

    e r a t o r i n a s i m u l a t i o n t o p i c k t h e s a m e e v e n t f o r r o l l i n g

    o u t d i e r e n t p o l i c i e s i n M o n t e - C a r l o p o l i c y e v a l u a t i o n ,

    a n d i t p r o v i d e s a c r i t i c a l a d v a n t a g e i n o p t i m i z a t i o n , a s i t

    e n s u r e s t h a t t h e r e w a r d c r i t e r i o n t o b e o p t i m i z e d w i l l b e

    a f u n c t i o n n o t n o i s y . F i n a l l y , t h e a s s u m p t i o n o f a d e t e r -

    m i n i s t i c s i m u l a t i v e m o d e l , p r o v i d e s c o m p l e x i t y t h e o r e t i c

    b e n e t s , i n t h a t i t a l l o w s o n e t o p r o v e u n i f o r m c o n v e r -

    g e n c e o f v a l u e - e s t i m a t e s t o t h e i r m e a n s i n t i m e p o l y n o -

    m i a l i n t h e h o r i z o n l e n g t h .

    I I I . O p t i m a l P o l i c i e s

    A . P e r f o r m a n c e C r i t e r i o n

    T o f o r m a l i z e t h e n o t i o n o f b u i l d i n g o p t i m a l c o n t r o l l e r s

    w e r e q u i r e a c r i t e r i o n o n w h i c h t o j u d g e t h e p e r f o r m a n c e

    o f a g i v e n c o n t r o l l e r o n a t r a j e c t o r y . A n a t u r a l o n e t o c o n -

    s i d e r i s t h e d i s c o u n t e d s u m o f f u t u r e r e w a r d s a c h i e v e d

    u n d e r a c o n t r o l l e r . W e d e n o t e b y J

    ! t h e e m p i r i c a l

    p e r f o r m a n c e o f a p o l i c y o n a s i n g l e t r a j e c t o r y :

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    4/7

    J

    ! =

    X

    t = 0 N

    t

    R X

    t

    ! 1

    2 0 1 N = 0 1

    T o c o n s i d e r t h i s a s a m e t r i c o n p o l i c i e s , w e s u g -

    g e s t t h a t p o l i c i e s b e o r d e r e d b y m e a n t r a j e c t o r y p e r -

    f o r m a n c e , w h e r e t h e e x p e c t a t i o n i s t a k e n w i t h r e s p e c t

    t o m e a s u r e Q i n c l u d i n g M a r k o v n o i s e a n d m o d e l d i s -

    t r i b u t i o n . N o t e t h a t t h e i n i t i a l s t a t e , d y n a m i c m o d e l ,

    a n d e e c t s o f n o i s e a r e a l l s p e c i e d i n t h e ! . C o n s i d e r -

    i n g t h e e x p e c t a t i o n o v e r m o d e l u n c e r t a i n t y a n d n o i s e i s a

    m o r e c o m p l e t e w a y t o l o o k a t m o d e l - b a s e d r e i n f o r c e m e n t

    l e a r n i n g s o l u t i o n s t h a n i s u s u a l l y d o n e w h e n e v a l u a t i n g

    c e r t a i n t y - e q u i v a l e n c e b a s e d a p p r o a c h e s . W e c o n s i d e r t h e

    e n t i r e p o s t e r i o r d i s t r i b u t i o n o n m o d e l s , a n d n o t j u s t t h e

    p o i n t m a x i m u m - l i k e l i h o o d e s t i m a t e . F i n d i n g t h e o p t i m a l

    c o n t r o l l e r w i t h t h i s m e t r i c c o r r e s p o n d s t o t h e B a y e s i a n

    d e c i s i o n - t h e o r e t i c o p t i m a l c o n t r o l l e r , w h e n w e k n o w t h e

    c o n t r o l l e r c a n n o t b e c h a n g e d a t a l a t e r t i m e d u e t o n e w

    i n f o r m a t i o n . F o r m a l l y ,

    D e n i t i o n 1 : A p o l i c y

    i s n e a r - o p t i m a l i n B a y e s i a n

    S t a t i o n a r y P e r f o r m a n c e i f

    E

    J

    ! s u p

    E

    J

    ! , 2

    B . C o n n e c t i o n s t o r o b u s t n e s s a n d e x p l o r a t i o n

    I n m a n y a p p l i c a t i o n s i t w i l l b e i m p o r t a n t t o c o n s i d e r

    o p t i m i z a t i o n c r i t e r i o n t h a t m o r e e x p l i c i t l y e n c o u r a g e r o -

    b u s t n e s s a n d e x p l o r a t i o n . W e a d d r e s s t h e s e i s s u e s a t

    l e n g t h i n 8 . B r i e y , t h e c e n t r a l i d e a f o r s a f e t y a n d

    r o b u s t n e s s c r i t e r i o n i s t o c o n s i d e r m a x i m i z i n g t h e p e r -

    f o r m a n c e o n t h e w o r s t m o d e l i n a l a r g e s e t o f m o d e l s ,

    o r o n a l m o s t a l l t r a j e c t o r i e s t h e c o n t r o l l e r e x e c u t e s , s o a s

    t o , w i t h h i g h - p r o b a b i l i t y , b o u n d t h e w o r s e - c a s e c o n t r o l l e r

    p e r f o r m a n c e . S u c h r o b u s t n e s s p r o c e d u r e s w h e n i n v e r t e d

    t o l o o k a t b e s t , i n s t e a d o f w o r s t , p e r f o r m a n c e a r e s i m i -

    l a r t o h e u r i s t i c a p p r o a c h e s c o m m o n l y u s e d i n e x p e r i m e n t

    d e s i g n . F o r a d i s c u s s i o n o f t h e a p p l i c a t i o n o f s t o c h a s t i c

    o p t i m i z a t i o n i n a r t i c i a l i n t e l l i g e n c e a n d a d e s c r i p t i o n

    o f t h e a l g o r i t h m s m e n t i o n e d h e r e , s e e 9 . A l g o r i t h m s

    d e v e l o p i n g c o n t r o l l e r s t o m a x i m i z e t h i s c r i t e r i o n c a n b e

    s e e n a s s e a r c h i n g f o r a g o o d e x p e r i m e n t t o p e r f o r m t o

    c o l l e c t i n f o r m a t i o n ; t h e y a r e e s s e n t i a l l y d e s i g n e d a c c o r d -

    i n g t o t h e o p t i m i s m i n t h e f a c e o f u n c e r t a i n t y " h e u r i s t i c .

    U n d e r t h i s i n t e r p r e t a t i o n , t h e B a y e s o p t i m a l s t a t i o n a r y

    c o n t r o l l e r d e s c r i b e d h e r e c a n b e s e e n a s b e i n g a v e r s i o n

    o f P M A X c h o o s i n g a n e x p e r i m e n t a t t h e p o i n t o f l a r g e s t

    e x p e c t e d v a l u e .

    B . 1 C o n v e r g e n c e o f A l g o r i t h m s

    W e b r i e y n o t e t h a t t h e f o l l o w i n g t h e o r e m o n t h e c o m -

    p l e x i t y o f e v a l u a t i n g a p o l i c y c l a s s u n d e r t h e B a y e s i a n

    S t a t i o n a r y P e r f o r m a n c e c r i t e r i o n f o l l o w s i m m e d i a t e l y

    f r o m 7 :

    T h e o r e m 1 : L e t a d i s c r e t e d i s t r i b u t i o n o f t w o - a c t i o n

    P O M D P s b e g i v e n , a n d l e t b e a c l a s s o f s t r a t e g i e s w i t h

    V a p n i k - C h e r v o n e n k i s d i m e n s i o n d = V C . A l s o l e t a n y

    ; 0 b e x e d , a n d l e t

    ^

    V b e t h e p o l i c y e s t i m a t e s d e -

    t e r m i n e d b y a s a m p l i n g a l g o r i t h m u s i n g m s a m p l e s f r o m

    t h e s a m e s a m p l e s u s e d t o e v a l u a t e e v e r y p o l i c y f r o m

    s c e n a r i o s w h e r e

    m = O p o l y d

    R

    m a x

    l o g

    1

    1

    1 ,

    3

    t h e n w i t h p r o b a b i l i t y a t l e a s t 1 ,

    ^

    V w i l l b e u n i f o r m l y

    c l o s e t o V w i t h i n o v e r a l l p o l i c i e s i n t h a t c l a s s .

    T h i s t y p e o f r e s u l t , w h i l e n o t t y p i c a l l y l e a d i n g t o a u s e -

    f u l n u m b e r o f s a m p l e s t o a c t u a l l y p e r f o r m , i s e n c o u r a g i n g

    i n t e r m s o f t h e t r a c t a b i l i t y o f t h e a p p r o a c h . T h i s r e s u l t

    o n t h e p o l y n o m i a l c o m p l e x i t y o f u n i f o r m b o u n d s o n t h e

    e v a l u a t i o n o f p e r f o r m a n c e c r i t e r i o n c a n b e e x t e n d e d t o

    t h e c a s e o f i n n i t e a c t i o n s p a c e s w i t h s u i t a b l e a s s u m p -

    t i o n o n t h e c o m p l e x i t y o f t h e d y n a m i c s . S e e 7 a n d 3

    f o r m o r e d i s c u s s i o n a b o u t p o l i c y s e a r c h a n d t h e c o m p l e x -

    i t y o f u n i f o r m b o u n d s o n e v a l u a t i o n s .

    C . C o m p u t a t i o n a l C o m p l e x i t y o f A c h i e v i n g O p t i m a l i t y

    P r o p o s i t i o n 1 : F i n d i n g t h e u n r e s t r i c t e d s t a t i o n a r y

    m e m o r y l e s s p o l i c y t h a t a c h i e v e s t h e l a r g e s t e x p e c t e d r e -

    w a r d o n d i s t r i b u t i o n s o v e r M a r k o v i a n o r P a r t i a l l y O b -

    s e r v e d M a r k o v i a n D e c i s i o n P r o c e s s i s N P - h a r d .

    T h e d i s t r i b u t i o n o v e r m o d e l s r e s u l t i n g f r o m B a y e s e s -

    t i m a t i o n i n m o d e l - b a s e d R L l e a d s t o a d i c u l t c o m p u -

    t a t i o n a l p r o b l e m a s w e l o s e t h e M a r k o v p r o p e r t y t h a t

    m a k e s d y n a m i c p r o g r a m m i n g a n e c i e n t s o l u t i o n t e c h -

    n i q u e . T h e p r o b l e m b e c o m e s s i m i l a r t o t h e o n e o f n d i n g

    m e m o r y l e s s p o l i c i e s i n a P O M D P , a n d t h u s a r e d u c t i o n

    s i m i l a r t o 1 0 p r o v e s t h e r e s u l t .

    D . S a m p l i n g A l g o r i t h m s

    U n t i l t h i s p o i n t w e h a v e d e f e r r e d t h e q u e s t i o n o f s a m -

    p l i n g f r o m t h e s p a c e . I n t h e c a s e o f B a y e s i a n p a r a m e t -

    r i c a p p r o x i m a t o r s o f s y s t e m d y n a m i c s , s a m p l i n g c a n b e

    o b t a i n e d s i m p l y b y s a m p l i n g f r o m t h e p o s t e r i o r o f t h e p a -

    r a m e t e r s a n d t h e n r o l l i n g o u t t r a j e c t o r i e s a s i s s t a n d a r d

    i n M o n t e - C a r l o p o l i c y e v a l u a t i o n .

    H o w e v e r , i n m a n y p r o b l e m s i n r o b o t i c s , i t h a s b e e n

    d e m o n s t r a t e d t h a t n o n - p a r a m e t r i c r e g r e s s i o n t e c h n i q u e s

    a d m i r a b l y s e r v e t o m o d e l t h e o f t e n h i g h l y n o n - l i n e a r a n d

    n o i s y d y n a m i c s . 1 1 T h e s e t e c h n i q u e s m a k e i t i m p o s s i -

    b l e t o d i r e c t l y s a m p l e f r o m t h e s p a c e o f p o s s i b l e m o d -

    e l s . S o m e n o n - p a r a m e t r i c m o d e l s l i k e L o c a l l y W e i g h t e d

    B a y e s i a n R e g r e s s i o n d o m a k e i t p o s s i b l e t o s a m p l e f r o m

    a s e t o f p o s t e r i o r l o c a l p a r a m e t e r s , a n d h e n c e c a n g e n -

    e r a t e s a m p l e s f r o m t h e 1 - s t e p p r e d i c t i v e d i s t r i b u t i o n d u e

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    5/7

    t o m o d e l u n c e r t a i n t y . W e a r g u e t h a t t h i s , c o m b i n e d w i t h

    t h e a b i l i t y t o r e - e s t i m a t e t h e m o d e l i n t h e B a y e s - o p t i m a l

    w a y , i s s u c i e n t t o c r e a t e a r b i t r a r y l e n g t h t r a j e c t o r i e s

    t h a t a r e i n d e p e n d e n t s a m p l e s f r o m t h e n - s t e p p r e d i c t i v e

    d i s t r i b u t i o n . I f a r e g r e s s i o n a l g o r i t h m l i k e L W B R i s n o t

    a B a y e s o p t i m a l e s t i m a t o r , t h e t e c h n i q u e d e s c r i b e d i n

    t h i s s e c t i o n p r o v i d e s b i a s e d n - s t e p s a m p l e s t h a t w e h o p e

    a r e c l o s e a p p r o x i m a t i o n s t o t h e i d e a l s a m p l e s .

    A l g o r i t h m 1 N - s t e p p r e d i c t i v e s a m p l e r A l g o r i t h m t o

    g e n e r a t e s a m p l e s f r o m t h e N - s t e p p r e d i c t i v e d i s t r i b u t i o n

    o f a l e a r n e r w i t h 1 - s t e p p r e d i c t i v e d i s t r i b u t i o n s

    1 . G e n e r a t e a s a m p l e s t a t e t r a n s i t i o n f r o m t h e 1 - s t e p p r e -

    d i c t i v e d i s t r i b u t i o n a n d u p d a t e t h e c u r r e n t s t a t e

    2 . U p d a t e t h e l e a r n e d m o d e l u s i n g t h e g e n e r a t e d s t a t e

    t r a n s i t i o n a s i f i t w e r e a t r a i n i n g p o i n t o b s e r v e d f r o m t h e

    r e a l s y s t e m

    3 . R e p e a t t o 1 u n t i l a t e r m i n a t i o n s t a t e i s e n t e r e d o r e f -

    f e c t i v e h o r i z o n i s r e a c h e d F o r t h e a n a l y s i s b e l o w a s s u m e

    w e r e p e a t n t i m e s .

    4 . R e s e t t h e l e a r n e d m o d e l b a c k t o t h e o r i g i n a l m o d e l

    I f o u r e s t i m a t o r w e r e o p t i m a l i n t h e B a y e s i a n s e n s e ,

    w e w o u l d e x p e c t t h a t i t e r a t i v e l y r e - e s t i m a t i n g t h e m o d e l

    u s i n g g e n e r a t e d s a m p l e s f r o m t h e m o d e l , a s t h e a l g o r i t h m

    a b o v e s u g g e s t s , w o u l d i n d e e d a l l o w u s t o s a m p l e f r o m t h e

    n - s t e p p r e d i c t i v e d i s t r i b u t i o n .

    T h e o r e m 2 S u c i e n c y o f 1 - s t e p p r e d i c t i v e l e a r n e r s I f

    m o d e l M i n a l g o r i t h m 1 c a n b e r e c u r s i v e l y u p d a t e d i n

    t h e B a y e s - o p t i m a l w a y , t h e t r a j e c t o r i e s g e n e r a t e d b y t h e

    a l g o r i t h m 1 a r e i n d e p e n d e n t s a m p l e s f r o m t h e n - s t e p

    p r e d i c t i v e d i s t r i b u t i o n .

    P r o o f : W e a r g u e b y i n d u c t i o n . C o n s i d e r t h e t w o s t e p

    p r e d i c t i v e d i s t r i b u t i o n :

    p X

    2

    X

    1

    X

    0

    T = p X

    2

    X

    1

    X

    0

    T p X

    1

    X

    0

    T 4

    w h e r e T i s t h e o b s e r v e d d a t a u s e d t o b u i l d t h e m o d e l .

    F o r a d i s c r e t e m o d e l s e t ,

    p X

    2

    X

    1

    X

    0

    T =

    X

    M

    p X

    2

    X

    1

    X

    0

    T M p M X

    1

    X

    0

    T

    5

    =

    X

    M

    p X

    2

    X

    1

    M p M T

    w h e r e M d e n o t e s t h e d i s c r e t e c l a s s o f m o d e l s t o b e e s -

    t i m a t e d f r o m t h e d a t a . T h e s e c o n d d i s t r i b u t i o n i n e a c h

    s u m m a t i o n i s j u s t t h e p o s t e r i o r m o d e l M ; t h a t i s , t h e

    d i s t r i b u t i o n o v e r M a r k o v m o d e l s c o n d i t i o n e d o n t h e o b -

    s e r v e d d a t a a n d t h e t r a n s i t i o n f r o m X

    0

    t o X

    1

    . B u t t h e n

    t h e n a l e q u a t i o n s h o w s t h a t p X

    2

    X

    1

    X

    0

    T i s j u s t a n -

    o t h e r o n e - s t e p d i s t r i b u t i o n f r o m t h e n e w d i s t r i b u t i o n o f

    m o d e l s P M , s i m p l y t h e l e a r n e d m o d e l u n d e r t h e o l d

    d a t a a n d t h e n e w o b s e r v e d t r a n s i t i o n .

    F i g . 1 . T h e C M U Y a m a h a R 5 0 h e l i c o p t e r i n a u t o n o m o u s i g h t .

    S i m i l a r r e s u l t s c a n b e s h o w n w i t h m o r e t e c h n i c a l d e t a i l

    i n t h e c a s e o f o t h e r m o d e l d i s t r i b u t i o n s . I t f o l l o w s t h e n

    f r o m t h e l a w o f c o m p o s i t i o n t h a t i f X

    1

    i s r s t d r a w n i . i . d

    p X

    1

    X

    0

    T a n d t h e n X

    2

    i s d r a w n f r o m p X

    2

    X

    1

    X

    0

    T

    t h e p a i r i s i . i . d f r o m t h e j o i n t p r e d i c t i v e d i s t r i b u t i o n .

    I V . E x p e r i m e n t a l R e s u l t s

    T h e r e i s a m p l e r o o m t o a p p l y t h e t e c h n i q u e s d e v e l o p e d

    i n t h e m a c h i n e l e a r n i n g c o m m u n i t y t o t h e p r o b l e m s i n

    t h e c o n t r o l o f a u t o n o m o u s h e l i c o p t e r s . A u t o n o m o u s h e -

    l i c o p t e r c o n t r o l i s d i c u l t a s t h e d y n a m i c s a r e u n s t a b l e ,

    n o n - m i n i m u m p h a s e , h a v e l a r g e d e l a y s , a n d v a r y a g r e a t

    d e a l a c r o s s t h e i g h t e n v e l o p e . I n t h i s s e c t i o n w e d e t a i l

    s o m e o f t h e r e s u l t s f r o m a p p l y i n g t h e p o l i c y s e a r c h m e t h -

    o d s d e s c r i b e d i n t h e p r e v i o u s s e c t i o n s t o t h e p r o b l e m o f

    t h e i g h t c o n t r o l o f a n a u t o n o m o u s h e l i c o p t e r .

    A . D y n a m i c s

    W e b e g i n b y s p e c i f y i n g t h e p r o b l e m . T o p r o v i d e a m a n -

    a g e a b l e r s t g o a l i n a p p l y i n g p o l i c y - s e a r c h t o t h e h e l i -

    c o p t e r , w e c o n s i d e r e d o n l y t h e s o - c a l l e d c o r e d y n a m i c s "

    o f t h e h e l i c o p t e r , t h e p i t c h , r o l l , a n d h o r i z o n t a l t r a n s l a -

    t i o n s . T h e d y n a m i c i n s t a b i l i t i e s a r e k n o w n t o l i e i n t h e s e

    d y n a m i c s , a n d c o n t r o l o f t h e s e i s t h e r e f o r e p a r a m o u n t .

    1 2 E x i s t i n g p r o p o r t i o n a l - d e r i v a t i v e P D c o n t r o l l e r s , t e -

    d i o u s l y t u n e d b y t h e h e l i c o p t e r t e a m , w e r e u s e d o n t h e

    y a w - h e a v e d y n a m i c s . F r o m a h i g h - l e v e l , t h e g o a l w i l l b e

    t h e r e g u l a t i o n o f t h e h e l i c o p t e r h o v e r i n g a b o u t a p o i n t ,

    o r a s l o w l y v a r y i n g t r a j e c t o r y . T h i s w i l l b e f o r m a l i z e d a s

    a c o s t f u n c t i o n t o b e o p t i m i z e d .

    B . M o d e l i n g

    M o d e l i n g a d y n a m i c a l s y s t e m i s a l w a y s c h a l l e n g i n g . T o

    l e a r n t h e d y n a m i c s o f t h e h e l i c o p t e r , w e c h o s e t o i m p l e -

    m e n t a L W B R s t a t e - s p a c e m o d e l o f t h e f o l l o w i n g f o r m a

    l o c a l l y a n e m o d e l :

    z

    , !

    x = A

    , !

    x

    , !

    x +

    , !

    r e f

    , !

    x + B

    , !

    x

    o n

    a t

    6

    , !

    x = x v

    x

    ; ; ,

    1

    z

    ; y ; v

    y

    ; ; ,

    1

    z

    T

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    6/7

    deltaLat

    x Vx pitch y Vy roll

    deltaLon

    F i g . 2 . A g r a p h i c a l d e p i c t i o n a s a n e u r a l n e t w o r k o f t h e s t r u c t u r e

    o f t h e p o l i c y u s e d t o c o n t r o l t h e h e l i c o p t e r .

    w h e r e z i s t h e f o r w a r d - s h i f t o p e r a t o r . T h e i n p u t s ,

    o n

    a n d

    a t

    r e e c t t h e c y c l i c c o n t r o l s o f t h e h e l i c o p t e r .

    T h e s t a t e v a r i a b l e s x a n d y r e f e r t r a n s l a t i o n a l d e v i a -

    t i o n o f t h e h e l i c o p t e r f r o m i t s s e t p o i n t . M a s s i v e c r o s s -

    v a l i d a t i o n w a s a p p l i e d t o d e t e r m i n e a p p r o p r i a t e k e r n e l

    w i d t h s . D a t a w a s c o l l e c t e d f r o m p i l o t t e l e - o p e r a t i o n o f

    t h e h e l i c o p t e r . T h i s d a t a w a s r e c o r d e d o t h e K a l m a n

    s t a t e - e s t i m a t o r a t 1 0 0 H z a n d d o w n - s a m p l e d t o 1 0 H z .

    T h e d o w n - s a m p l i n g i n t r o d u c e s a l i a s i n g i n t o t h e d a t a d u e

    t o t h e h i g h e r - o r d e r d y n a m i c s o f t h e h e l i c o p t e r , b u t h a s

    t h e a d v a n t a g e t h a t i t r e d u c e s t h e a p p a r e n t d e l a y i n c o n -

    t r o l s a p p l i e d c a u s e d b y t h e u n o b s e r v a b l e r o t o r a n d a c t u a -

    t o r d y n a m i c s . W e h o p e t o s t i l l c a p t u r e m u c h o f t h e p r i n -

    c i p l e b e h a v i o r o f t h e h e l i c o p t e r w i t h t h e l o w e r f r e q u e n c y

    m o d e l . I n t e r e s t i n g f u t u r e w o r k w o u l d i n v o l v e b u i l d i n g

    a d i e r e n t s t a t e - s p a c e m o d e l c a p a b l e o f c a p t u r i n g t h e

    h i g h e r f r e q u e n c y d y n a m i c s t h e h e l i c o p t e r d e m o n s t r a t e s .

    C . C o n t r o l l e r d e s i g n

    C . 1 C o n t r o l l e r s t r u c t u r e

    I n p r o p o s i n g a n i n i t i a l c o n t r o l l e r s t r u c t u r e , w e l o o k e d

    t o w a r d s s i m p l e c o n t r o l l e r s k n o w n t o b e c a p a b l e o f y i n g

    t h e h e l i c o p t e r . T o t h i s e n d , w e p r o p o s e d a s i m p l e , n e u r a l -

    n e t w o r k s t y l e s t r u c t u r e s e e F i g u r e 2 t h a t i s d e c o u p l e d

    i n t h e p i t c h a n d r o l l a x i s , a n d a b o u t e q u i l i b r i u m i s s i m -

    i l i a r t o a l i n e a r P D c o n t r o l l e r . T h e r e w e r e 1 0 p a r a m e -

    t e r s t o m o d i f y i n t h e c o n t r o l l e r s t r u c t u r e , c o r r e s p o n d i n g

    t o t h e w e i g h t s b e t w e e n o u t p u t n o d e s a n d p a r a m e t e r s i n

    t h e s i g m o i d a l f u n c t i o n s a t t h e h i d d e n a n d o u t p u t l a y e r s .

    T h i s i s a f a i r l y s i m p l e c o n t r o l l e r t h a t l e a d s t o a p o l i c y

    d i e r e n t i a b l e i n i t s p a r a m e t e r s a n d n e a r l y l i n e a r a b o u t

    e q u i l i b r i u m . B e c a u s e o f t h e h i d d e n l a y e r u n i t , i t i s a b l e

    t o a d a p t t o l a r g e s e t - p o i n t s h i f t s i n t h e p o s i t i o n v a r i a b l e s ,

    u n l i k e a l i n e a r o n e .

    C . 2 O p t i m i z a t i o n

    F o r t h e p u r p o s e s o f o p t i m i z a t i o n , w e m a x i m i z e d t h e

    B a y e s i a n S t a t i o n a r y P e r f o r m a n c e c r i t e r i o n . I t h a s p r e -

    v i o u s l y b e e n d e m o n s t r a t e d t h a t t h i s c r i t e r i o n o r r a t h e r

    t h e a p p r o x i m a t i o n o f i t g i v e n i n 4 t y p i c a l l y l e a d s t o

    c o n t r o l l e r s t h a t a r e n e i t h e r t o o c o n s e r v a t i v e , n o r a s a g -

    g r e s s i v e a s t h a t o b t a i n e d b y a o p t i m i z i n g a m a x i m u m

    l i k e l i h o o d m o d e l . A v a r i e t y o f c o s t c r i t e r i o n w e r e i m -

    0 5 10 15 20 251.5

    1

    0.5

    0

    0.5

    1

    1.5

    time (s)

    Velocitym/s

    VxVy

    0 5 10 151.5

    1

    0.5

    0

    0.5

    1

    1.5

    time (s)

    Velocitym/s

    VxVy

    F i g . 3 . D a t a l o g s f r o m t h e R - 5 0 d e m o n s t r a t i n g p e r f o r m a n c e h o v e r -

    i n g u n d e r l e f t a h i g h l y t r a i n e d p i l o t ' s c o n t r o l , a n d r i g h t t h e

    n e u r a l - n e t c o n t r o l l e r b u i l t b y t h e r o b u s t p o l i c y s e a r c h m e t h o d s .

    p l e m e n t e d , e a c h l e a d i n g t o d i e r e n t a l t h o u g h m i l d l y s o

    c o n t r o l l e r s . A t y p i c a l e x a m p l e w a s t h e q u a d r a t i c f o r m :

    x

    2

    + y

    2

    + x

    2

    + y

    2

    + 0 0 0 1

    2

    a t

    + 0 0 0 1

    2

    o n

    7

    Q u a d r a t i c f o r m s i n t h e p o s i t i o n v a r i a b l e s a r e t y p i c a l l y

    n o t r e e c t i v e o f o u r r e a l p e r f o r m a n c e g o a l s . A b e t t e r r e -

    e c t i o n o f o u r p r e f e r e n c e s i n c o n t r o l i s o n e t h a t e m p h a s i s

    s t a b i l i t y i n v e l o c i t i e s a n d a n g l e s r a t h e r t h a n p l a c i n g h u g e

    p e n a l t i e s o n m o d e s t d e v i a t i o n f r o m n o m i n a l s e t p o i n t e s -

    p e c i a l l y a s w e w i l l e x p e c t t h e c o n t r o l l e r t o p e r f o r m w e l l

    e v e n w h e n s t a r t e d q u i t e f a r a s d i s t a n t a s 2 5 m e t e r s f r o m

    t h e s e t p o i n t . T o r e e c t t h i s p r e f e r e n c e , o u r i m m e d i a t e

    c o s t c r i t e r i o n o n t h e p o s i t i o n v a r i a b l e s i s c o m p u t e d l i n e a r

    i n t h e m a g n i t u d e o f t h e s t a t e v a r i a b l e , o r o f a f o r m l i k e

    t h e f o l l o w i n g :

    1 0

    x

    2

    x

    2

    + 1

    + 1 0

    y

    2

    y

    2

    + 1

    8

    F i n a l l y , w e a s s i g n e d a l a r g e p e n a l t y f o r l a r g e 1 0

    6

    f o r

    s t a t e - v a r i a b l e s t h a t w e r e o u t s i d e t h e s p a c e o f t h e d a t a w e

    h a d o b s e r v e d .

    A f t e r e s t a b l i s h i n g t h e c o s t c r i t e r i o n , w e c o n s i d e r e d t h e

    t a s k o f o p t i m i z i n g t h e p a r a m e t e r s . T r a j e c t o r i e s w e r e

    r o l l e d o u t u s i n g t h e s a m p l i n g t e c h n i q u e d e s c r i b e d i n a l -

    g o r i t h m 1 f o r t h e L W B R m o d e l . T y p i c a l p o l i c y e v a l -

    u a t i o n s w e r e 3 0 t r a j e c t o r i e s o f h o r i z o n l e n g t h 5 0 0 w i t h

    d i s c o u n t f a c t o r = 9 9 5 . T h e a m o e b a s i m p l e x o p t i -

    m i z a t i o n t e c h n i q u e 9 w a s u s e d t o m o d i f y t h e c o n t r o l l e r

    p a r a m e t e r s a n d g u i d e t h e s e a r c h f o r o p t i m a . R a n d o m

    r e s t a r t s w e r e a p p l i e d t o i n i t i a l w e i g h t s t o a l l o w t h e o p t i -

    m i z e r t o n d a r e a s o n a b l e s o l u t i o n . N o t e t h a t i s p o s s i b l e

    t o u s e d i e r e n t i a b l e o p t i m i z a t i o n t e c h n i q u e s i n s t e a d , i f

    w e w e r e w i l l i n g t o s m o o t h t h e o u t - o f - b o u n d s " p e n a l t i e s

    i n t r o d u c e d o n t h e s t a t e - v a r i a b l e s .

    D . V a l i d a t i o n

    I n i t i a l v a l i d a t i o n e x p e r i m e n t s w e r e p e r f o r m e d o n a l i n -

    e a r m o d e l o f t h e r o t o r c r a f t a b o u t h o v e r g i v e n i n 1 2 .

    G o o d p e r f o r m a n c e o n t h i s m o d e l w a s e n c o u r a g i n g a s i t i s

    s i g n i c a n t l y h i g h e r - d i m e n s i o n a l 1 4

    t h

    o r d e r a n d l a r g e r

  • 7/28/2019 Autonomous Helicopter Control Using Reinforcement Learning Policy.pdf

    7/7

    b a n d w i d t h m o d e l t h a n t h a t o b t a i n e d u s i n g t h e l o c a l l y

    w e i g h t e d r e g r e s s i o n t e c h n i q u e d e s c r i b e d h e r e , a n d w a s

    d e v e l o p e d b y a d i e r e n t s e t o f t e c h n i q u e s . I n p a r t i c u l a r ,

    t o f o r m u l a t e a s t a t e - s p a c e m o d e l 1 2 u s e s t h e U . S . A r m y

    d e v e l o p e d C I F E R s y s t e m , d e s i g n e d s p e c i c a l l y f o r f u l l -

    s c a l e r o t o r c r a f t i d e n t i c a t i o n . C I F E R p e r f o r m s s y s t e m

    i d e n t i c a t i o n i n t h e f r e q u e n c y d o m a i n u s i n g t h e C h i r p - Z

    t r a n s f o r m , a n d t r e a t s t h e s t a t e s p a c e i d e n t i c a t i o n a s a n

    o p t i m a l m a t c h i n g p r o b l e m . T h i s a p p r o a c h h a s b e e n v a l i -

    d a t e d n u m e r o u s t i m e s , a n d t a k e s a d v a n t a g e o f t h e k n o w n

    p h y s i c s o f t h e h e l i c o p t e r . F u r t h e r , b e c a u s e o f t h e s t a t e

    s p a c e s t r u c t u r e , C I F E R e x p l i c i t l y m o d e l s r o t o r d y n a m -

    i c s w h i c h i n t r o d u c e a s i g n i c a n t d e l a y i n t o t h e s y s t e m

    d y n a m i c s . T h i s m o d e l i n g e n a b l e s M e t t l e r e t . a l . t o

    c a p t u r e h i g h e r f r e q u e n c y d y n a m i c s t h a n w e c a n h o p e t o .

    H o w e v e r , t h e f r e q u e n c y d o m a i n a p p r o a c h i s f u n d a m e n -

    t a l l y a l i n e a r o n e , a n d t h u s o n e c a n o n l y c a p t u r e d y -

    n a m i c s i n a s m a l l p a r t o f t h e i g h t e n v e l o p e . F u r t h e r ,

    t h e i n e x i b i l i t y o f t h e s t a t e - s p a c e m o d e l i n C I F E R f o r c e s

    t h e r e s p o n s e i n t o a p a r t i c u l a r s t r u c t u r e t h a t o n e c a n n o t

    b e s u r e i s a c c u r a t e f o r a l l r o t o r c r a f t , p a r t i c u l a r l y o n e s o f

    d r a m a t i c a l l y d i e r e n t s c a l e s t h e n t h a t f o r w h i c h C I F E R

    w a s o r i g i n a l l y d e s i g n e d . D e s p i t e t h e s e r e s e r v a t i o n s , i t i s

    a p p a r e n t t h a t 1 2 g e t e x c e l l e n t r e s u l t s f o r t h e h o v e r c e n -

    t e r e d m o d e l .

    I t i s i n t e r e s t i n g t o n o t e t h a t c o n t r o l l e r d e v e l o p e d b y

    p o l i c y s e a r c h o n t h e m a x i m u m l i k e l i h o o d m o d e l h a d

    h i g h l y o s c i l l a t o r y n e a r l y u n s t a b l e p e r f o r m a n c e o n t h e

    l i n e a r s i m u l a t o r . T h e c o n t r o l l e r l e a r n e d o n t h e d i s t r i b u -

    t i o n o f m o d e l s , i n c o n t r a s t h a d s i g n i c a n t l y l o w e r l o o p

    g a i n .

    A f t e r a d e g r e e o f c o n d e n c e w a s a c h i e v e d b y s i m u l a -

    t i o n o n t h e m o d e l , t h e c o n t r o l l e r w a s p o r t e d t o C a r n e g i e -

    M e l l o n ' s a u t o n o m o u s R - 5 0 h e l i c o p t e r c o n t r o l c o m p u t e r .

    T h e e s t i m a t i o n - c o n t r o l l o o p o n - b o a r d o p e r a t e s a t 1 0 0 H z

    a s o p p o s e d t o t h e s i m u l a t i o n 1 0 H z . T o e n s u r e t h e c o n -

    t r o l l e r w a s n ' t o p e r a t i n g o u t s i d e t h e m o d e l e d b a n d w i d t h ,

    a r s t o r d e r l o w - p a s s d i g i t a l l t e r w a s i m p l e m e n t e d o n

    t h e c o n t r o l o u t p u t s .

    T h e h e l i c o p t e r w a s t h e n t e s t o w n . T h e r e s u l t s w e r e

    e n c o u r a g i n g , a n d d e m o n s t r a t e t h a t t h e s i m p l e p o l i c y

    s e a r c h t e c h n i q u e c a n g e n e r a t e c o n t r o l l e r s t h a t a r e a p p l i -

    c a b l e t o r o b o t i c s y s t e m s . D e s p i t e q u i t e w i n d y c o n d i t i o n s

    t h e r o t o r c r a f t w a s a b l e t o t r a c k m o v i n g s e t p o i n t s a n d r e -

    e c t s t r o n g g u s t s F i g u r e 3 s h o w s t y p i c a l p e r f o r m a n c e

    d u r i n g t h e i g h t , c o n t r a s t i n g t h e h o v e r i n g o f a h i g h l y

    t r a i n e d h u m a n p i l o t w i t h t h e c o n t r o l l e r o b t a i n e d u s i n g

    t h e s a f e l e a r n i n g c o n t r o l m e t h o d s d e s c r i b e d a b o v e .

    V . C o n c l u s i o n s

    O u r c u r r e n t w o r k e s t a b l i s h e s a f r a m e w o r k f o r t h e d e -

    v e l o p m e n t o f s t r u c t u r e d c o n t r o l l e r s s e n s i t i v e m o d e l u n -

    c e r t a i n t y a n d t h e n d e m o n s t r a t e s t h e v i a b i l i t y o f t h e a p -

    p r o a c h o n a d i c u l t p h y s i c a l c o n t r o l p r o b l e m . F u t u r e

    r e s e a r c h d i r e c t i o n s i n c l u d e m o r e s o p h i s t i c a t e d c o n t r o l o f

    t h e r o t o r c r a f t t o e x e r c i s e m o r e o f t h e i g h t e n v e l o p e . A n -

    o t h e r i n t e r e s t i n g a r e a t o p u r s u e i s t h e o n l i n e i m p l e m e n t a -

    t i o n o f t h e i n n e r - l o o p p o l i c y s e a r c h t o d y n a m i c a l l y r e c o n -

    g u r e t h e c o n t r o l l e r . T h i s i s p a r t i c u l a r i n t e r e s t i n g i n t h e

    c o n t e x t o f e r r o r - r e c o v e r y . I n t h e e v e n t o f a f a i l u r e o f s o m e

    s u b - s y s t e m o f t h e h e l i c o p t e r , i t w i l l b e c r i t i c a l t o , b a s e d

    o n l y o n v e r y l i m i t e d e x p e r i e n c e a f t e r t h e f a u l t , q u i c k l y

    s e a r c h f o r a v i a b l e c o n t r o l l e r . W e w i l l a l s o e x t e n d t h i s

    w o r k t o a p p l y m o r e e c i e n t t e c h n i q u e s i n t h e i n n e r l o o p

    s e a r c h , i n c l u d i n g f a s t e r o p t i m i z a t i o n a n d u s i n g r e w a r d

    s h a p i n g i n a p r i n c i p l e d w a y . F i n a l l y , w e w i l l c o n t i n u e t h e

    i n v e s t i g a t i o n i n t o e x p l i c i t c r i t e r i o n f o r e x p l o r a t i o n a n d

    r i s k s e n s i t i v i t y u s i n g p o l i c y s e a r c h d e s c r i b e d i n 8 .

    A c k n o w l e d g m e n t s

    T h e a u t h o r s g r a t e f u l l y a c k n o w l e d g e e n l i g h t e n i n g c o n -

    v e r s a t i o n s w i t h B e r n a r d M e t t l e r a n d A n d r e w N g , a n d

    p a r t i c u l a r l y t h e h e l p o f O m e a d A m i d i i n t h e i m p l e m e n -

    t a t i o n a n d e x p e r i m e n t s w i t h t h e h e l i c o p t e r . F i n a l l y , t h e

    a u t h o r s t h a n k C h u c k T h o r p e f o r h i s s u p p o r t t h r o u g h o u t

    t h e r e s e a r c h . D r e w B a g n e l l w a s s u p p o r t e d b y R o b o t i c s

    I n s t i t u t e a n d N a t i o n a l S c i e n c e F o u n d a t i o n F e l l o w s h i p s .

    R e f e r e n c e s

    1 D . B e r t s e k a s a n d J . T s i t s i k l i s , N e u r o - D y n a m i c P r o g r a m m i n g

    A t h e n a S c i e n t i c , 1 9 9 6 .

    2 R . B e l l m a n , D y n a m i c P r o g r a m m i n g . P r i n c e t o n U n i v e r s i t y

    P r e s s , 1 9 5 7 .

    3 M . K e a r n s , Y . M a n s o u r , a n d A . N g , A p p r o x i m a t e p l a n n i n g i n

    l a r g e p o m d p s v i a r e u s a b l e t r a j e c t o r i e s , " i n N e u r a l I n f o r m a t i o n

    P r o c e s s i n g S y s t e m s 1 2 , 1 9 9 9 .

    4 J . S c h n e i d e r , E x p l o i t i n g m o d e l u n c e r t a i n t y e s t i m a t e s f o r s a f e

    d y n a m i c c o n t r o l l e a r n i n g , " i n N e u r a l I n f o r m a t i o n P r o c e s s i n g

    S y s t e m s 9 , 1 9 9 6 .

    5 M . K e a r n s a n d S . S i n g h , N e a r - o p t i m a l r e i n f o r c e m e n t l e a r n i n g

    i n p o l y n o m i a l t i m e , " i n I n t e r n a t i o n a l C o n f e r e n c e o n M a c h i n e

    L e a r i n g , 1 9 9 8 .

    6 R . S u t t o n a n d A . B a r t o , R e i n f o r c e m e n t L e a r n i n g : A n I n t r o -

    d u c t i o n . M I T P r e s s , 1 9 9 8 .

    7 A . N g , D . H a r a d a , a n d S . R u s s e l l , P e g a s u s : A p o l i c y s e a r c h

    m e t h o d f o r l a r g e m d p s a n d p o m d p s , " i n U n c e r t a i n t y i n A r -

    t i c i a l I n t e l l i g e n c e , P r o c e e d i n g s o f t h e S i x t e e n t h C o n f e r e n c e

    1 9 9 9 .

    8 J . B a g n e l l , J . S c h n e i d e r , a n d A . N g , R o b u s t n e s s a n d e x p l o -

    r a t i o n i n p o l i c y - s e a r c h b a s e d r e i n f o r c e m e n t l e a r n i n g , " t e c h .

    r e p . , R o b o t i c s I n s t i t u r e , C a r n e g i e M e l l o n U n i v e r s i t y , 2 0 0 0 .

    9 A . M o o r e a n d J . S c h n e i d e r , M e m o r y b a s e d s t o c h a s t i c o p t i -

    m i z a t i o n , " i n A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s -

    t e m s N I P S - 8 , 1 9 9 5 .

    1 0 M . L i t t m a n , A l g o r i t h m s f o r S e q u e n t i a l D e c i s i o n M a k i n g . P h D

    t h e s i s , B r o w n U n i v e r s i t y , 1 9 9 6 .

    1 1 C . A t k e s o n , U s i n g l o c a l l y w e i g h t e d r e g r e s s i o n f o r r o b o t l e a r n -

    i n g , " i n P r o c e e d i n g s o f t h e 9 1 I E E E I n t . C o n f e r e n c e o n

    R o b o t i c s a n d A u t o m a t i o n , A p r i l 1 9 9 1 .

    1 2 B . M e t t l e r , M . T i s c h l e r , a n d T . K a n a d e , S y s t e m i d e n t i c a t i o n

    o f s m a l l - s i z e u n m a n n e d h e l i c o p t e r d y n a m i c s , " i n P r e s e n t e d a t

    t h e A m e r i c a n H e l i c o p t e r S o c i e t y ' s 5 5

    t h

    F o r u m , 1 9 9 9 .