44
 Otimiza¸c˜ao do Funcionamento de Elevador es Atr av´ es d e Re inforcement L earning   ML Otimiza¸ ao do Funcionamento de Ele vadores Atrav´ es de Reinforcement Learning Andr´ e Peric T avare s E-mail:  [email protected] 25 de maio de 2014 Andr ´ e Peri c Tavares  Aprendi zado de M´ aquina

Elevadores and Reinforcement Learning

Embed Size (px)

Citation preview

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 1/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Otimizacao do Funcionamento de Elevadores

Atraves de Reinforcement Learning

Andre Peric Tavares

E-mail:   [email protected]

25 de maio de 2014

Andre Peric Tavares   Aprendizado de Maquina

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 2/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Andre Peric Tavares   Aprendizado de Maquina

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 3/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Exemplos:(a)   Crianca evita repetir acoes que resultaram em dor.

Andre Peric Tavares   Aprendizado de Maquina

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 4/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Introducao

A natureza do aprendizado esta intimamente ligada com a   interacao  como ambiente.

Exemplos:(a)   Crianca evita repetir acoes que resultaram em dor. o do jogo, decide

 jogada e aprende com os resultados futuros.

(b)  Jogador de xadrez verifica estado atual do jogo, toma acao e aprendecom suas consequencias.

Andre Peric Tavares   Aprendizado de Maquina

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 5/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

Enfase na interacao com o ambiente e conceito de   reforco .

Andre Peric Tavares   Aprendizado de Maquina

O i i ˜ d F i d El d A ´ d R i f L i

ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 6/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de   reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.

Andre Peric Tavares   Aprendizado de Maquina

Oti i acao do F cio a e to de Ele ado es At a es de Rei fo ce e t Lea i g

ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 7/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de   reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.

https://www.youtube.com/watch?v=tV7Zp2B_mt8

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 8/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Motivacao

Abordagem computacional ao aprendizado por interacao.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 9/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

Motivacao

Abordagem computacional ao aprendizado por interacao.

Objetivo: Modelar um sistema de controle de elevadores atraves do RL.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 10/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning   ML

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 11/44

¸ g

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 12/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 13/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 14/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

(d)   γ   e o   fator de desconto  e pertence a [0, 1).

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 15/44

MDP

Um Markov decision processes e uma tupla (S ,  A,  {P sa},  γ ,  R ) em que:

(a)   S   e o conjunto de  estados. Cada elemento de  S  representa umacaracterıstica do estado.

(b)   A  e o conjunto de  acoes.

(c)   {P sa}  sao as   probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.

(d)   γ   e o   fator de desconto  e pertence a [0, 1).

(e)   R   e a funcao  recompensa, que leva os elementos de  S  × A a R

, cujodomınio tambem pode ser descrito como apenas  S .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 16/44

MPD

Mecanica do MPD:

s 0

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 17/44

MPD

Mecanica do MPD:

s 0  →a0

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 18/44

MPD

Mecanica do MPD:

s 0  →a0   s 1

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 19/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 20/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1   s 2

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 21/44

MPD

Mecanica do MPD:

s 0  →a0   s 1 →a1   s 2  → . . .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 22/44

Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

R

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 23/44

Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...

Explicacao: O presente e mais importante do que o futuro.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

V l f ˜

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 24/44

Valor e funcao recompensa

Uma polıtica  π  mapeia cada elemento do onjunto de estados  S  a umaacao  a ∈  AValor  do estado  s  sob a polıtica  π, denotado por  V π, que e a esperancada soma das recompensas:

V π(s ) = E [R (s 0) + γ R (s 1) + γ 2R (s 2) + ...]

E possıvel provar que a funcao acima satisfaz as Equacoes de Bellman:

V π(s ) = R (s ) + γ 

P (s |s , π(s ))V π(s ).

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 25/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 26/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

•   No maximo um passageiro aguarda por andar.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

C di ˜

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 27/44

Condicoes

•   Restricoes (descer estando no terreo, subir estando no ultimo, etc.)

•   No maximo um passageiro aguarda por andar.•   Todos os passageiros saem do elevador apenas no andar terreo.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 28/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 29/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 30/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 31/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 32/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

•   o   e o numero de pessoas que ocupam o elevador, tomando valoresentre  {0, 1, 2, 3, 4}.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Implementacao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 33/44

Implementacao

Cada estado e computado como um vetor de 7 elementos

x  = [c 1, c 2, c 3, c 4, p , v , o ]T 

Em que

•   c i   representa o numero de pessoas que aguardam no andar   i .

•   p   e a posicao do elevador, pertencente a  {0, 1, 2, 3, 4}.

•   v   e a velocidade do elevador, pertencente a  {−3, 0, 3}.

•   o   e o numero de pessoas que ocupam o elevador, tomando valoresentre  {0, 1, 2, 3, 4}.

Assim, existem no total

24 × 5 × 3 × 5 = 1200

estados diferentes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Recompensa

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 34/44

Recompensa

Formula:

p (x ) = −4

i =1

c i  − o 

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Recompensa

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 35/44

Recompensa

Formula:

p (x ) = −4

i =1

c i  − o 

Interpretacao: Negativo do numero de passageiros aguardantes eocupantes.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Execucao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 36/44

Execucao

Passo 1: Calcular  π  e construir o conjunto de acoes otimas.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Execucao

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 37/44

Execucao

Passo 1: Calcular  π  e construir o conjunto de acoes otimas.

function  Algoritmo q-value(P sa, p , θ)Inicialize  V π = 0 para todo  x  ∈ X , u  ∈ U   (arbitrario)k  = 0repeat

for cada  x  ∈ X , u  ∈ U   doQ k +1(x , u ) =

x ∈X 

 P sa(x , u , x )[p (x , u , u ) + γ  maxu ∈U  Q k (x , u )]

end for

k  ← k  + 1until  max x ,u |Q k (x , u ) −Q k −1(x , u )| < θ

return  π∗

(x ) = arg maxu ∈U  Q k (x , u )∀x  ∈ X end function

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Resultados

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 38/44

Resultados obtidos:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Resultados

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 39/44

Resultados obtidos:

Figura:   :(

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 40/44

g g

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 41/44

g g

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 42/44

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Artigo original

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 43/44

Resultado no artigo  Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:

Heurıstica: Selecione   aleatoriamente  um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.

Heurıstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.

Andre Peric Tavares   Aprendizado de Maquina

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

  ML

Duvidas

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 44/44

Andre Peric Tavares   Aprendizado de Maquina