7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 1/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Otimizacao do Funcionamento de Elevadores
Atraves de Reinforcement Learning
Andre Peric Tavares
E-mail: [email protected]
25 de maio de 2014
Andre Peric Tavares Aprendizado de Maquina
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 2/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Introducao
A natureza do aprendizado esta intimamente ligada com a interacao como ambiente.
Andre Peric Tavares Aprendizado de Maquina
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 3/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Introducao
A natureza do aprendizado esta intimamente ligada com a interacao como ambiente.
Exemplos:(a) Crianca evita repetir acoes que resultaram em dor.
Andre Peric Tavares Aprendizado de Maquina
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 4/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Introducao
A natureza do aprendizado esta intimamente ligada com a interacao como ambiente.
Exemplos:(a) Crianca evita repetir acoes que resultaram em dor. o do jogo, decide
jogada e aprende com os resultados futuros.
(b) Jogador de xadrez verifica estado atual do jogo, toma acao e aprendecom suas consequencias.
Andre Peric Tavares Aprendizado de Maquina
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 5/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Behaviorismo
Behaviorismo
Enfase na interacao com o ambiente e conceito de reforco .
Andre Peric Tavares Aprendizado de Maquina
O i i ˜ d F i d El d A ´ d R i f L i
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 6/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Behaviorismo
Behaviorismo
ˆEnfase na interacao com o ambiente e conceito de reforco .
Reforco e uma consequencia que ira estimular o comportamento futuro.
Andre Peric Tavares Aprendizado de Maquina
Oti i acao do F cio a e to de Ele ado es At a es de Rei fo ce e t Lea i g
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 7/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Behaviorismo
Behaviorismo
ˆEnfase na interacao com o ambiente e conceito de reforco .
Reforco e uma consequencia que ira estimular o comportamento futuro.
https://www.youtube.com/watch?v=tV7Zp2B_mt8
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 8/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Motivacao
Abordagem computacional ao aprendizado por interacao.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 9/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
Motivacao
Abordagem computacional ao aprendizado por interacao.
Objetivo: Modelar um sistema de controle de elevadores atraves do RL.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 10/44
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 11/44
¸ g
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 12/44
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.
(b) A e o conjunto de acoes.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 13/44
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.
(b) A e o conjunto de acoes.
(c) {P sa} sao as probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 14/44
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.
(b) A e o conjunto de acoes.
(c) {P sa} sao as probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.
(d) γ e o fator de desconto e pertence a [0, 1).
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 15/44
MDP
Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:
(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.
(b) A e o conjunto de acoes.
(c) {P sa} sao as probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.
(d) γ e o fator de desconto e pertence a [0, 1).
(e) R e a funcao recompensa, que leva os elementos de S × A a R
, cujodomınio tambem pode ser descrito como apenas S .
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 16/44
MPD
Mecanica do MPD:
s 0
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 17/44
MPD
Mecanica do MPD:
s 0 →a0
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 18/44
MPD
Mecanica do MPD:
s 0 →a0 s 1
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 19/44
MPD
Mecanica do MPD:
s 0 →a0 s 1 →a1
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 20/44
MPD
Mecanica do MPD:
s 0 →a0 s 1 →a1 s 2
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 21/44
MPD
Mecanica do MPD:
s 0 →a0 s 1 →a1 s 2 → . . .
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 22/44
Recompensa
Recompensa total torna-se
R (s 0) + γ R (s 1) + γ 2R (s 2) + ...
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
R
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 23/44
Recompensa
Recompensa total torna-se
R (s 0) + γ R (s 1) + γ 2R (s 2) + ...
Explicacao: O presente e mais importante do que o futuro.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
V l f ˜
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 24/44
Valor e funcao recompensa
Uma polıtica π mapeia cada elemento do onjunto de estados S a umaacao a ∈ AValor do estado s sob a polıtica π, denotado por V π, que e a esperancada soma das recompensas:
V π(s ) = E [R (s 0) + γ R (s 1) + γ 2R (s 2) + ...]
E possıvel provar que a funcao acima satisfaz as Equacoes de Bellman:
V π(s ) = R (s ) + γ
s
P (s |s , π(s ))V π(s ).
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
C di ˜
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 25/44
Condicoes
• Restricoes (descer estando no terreo, subir estando no ultimo, etc.)
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
C di ˜
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 26/44
Condicoes
• Restricoes (descer estando no terreo, subir estando no ultimo, etc.)
• No maximo um passageiro aguarda por andar.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
C di ˜
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 27/44
Condicoes
• Restricoes (descer estando no terreo, subir estando no ultimo, etc.)
• No maximo um passageiro aguarda por andar.• Todos os passageiros saem do elevador apenas no andar terreo.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 28/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 29/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Em que
• c i representa o numero de pessoas que aguardam no andar i .
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 30/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Em que
• c i representa o numero de pessoas que aguardam no andar i .
• p e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 31/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Em que
• c i representa o numero de pessoas que aguardam no andar i .
• p e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
• v e a velocidade do elevador, pertencente a {−3, 0, 3}.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 32/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Em que
• c i representa o numero de pessoas que aguardam no andar i .
• p e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
• v e a velocidade do elevador, pertencente a {−3, 0, 3}.
• o e o numero de pessoas que ocupam o elevador, tomando valoresentre {0, 1, 2, 3, 4}.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Implementacao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 33/44
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c 1, c 2, c 3, c 4, p , v , o ]T
Em que
• c i representa o numero de pessoas que aguardam no andar i .
• p e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
• v e a velocidade do elevador, pertencente a {−3, 0, 3}.
• o e o numero de pessoas que ocupam o elevador, tomando valoresentre {0, 1, 2, 3, 4}.
Assim, existem no total
24 × 5 × 3 × 5 = 1200
estados diferentes.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Recompensa
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 34/44
Recompensa
Formula:
p (x ) = −4
i =1
c i − o
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Recompensa
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 35/44
Recompensa
Formula:
p (x ) = −4
i =1
c i − o
Interpretacao: Negativo do numero de passageiros aguardantes eocupantes.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Execucao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 36/44
Execucao
Passo 1: Calcular π e construir o conjunto de acoes otimas.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Execucao
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 37/44
Execucao
Passo 1: Calcular π e construir o conjunto de acoes otimas.
function Algoritmo q-value(P sa, p , θ)Inicialize V π = 0 para todo x ∈ X , u ∈ U (arbitrario)k = 0repeat
for cada x ∈ X , u ∈ U doQ k +1(x , u ) =
x ∈X
P sa(x , u , x )[p (x , u , u ) + γ maxu ∈U Q k (x , u )]
end for
k ← k + 1until max x ,u |Q k (x , u ) −Q k −1(x , u )| < θ
return π∗
(x ) = arg maxu ∈U Q k (x , u )∀x ∈ X end function
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Resultados
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 38/44
Resultados obtidos:
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Resultados
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 39/44
Resultados obtidos:
Figura: :(
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Artigo original
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 40/44
g g
Resultado no artigo Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Artigo original
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 41/44
g g
Resultado no artigo Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:
Heurıstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Artigo original
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 42/44
Resultado no artigo Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:
Heurıstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Artigo original
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 43/44
Resultado no artigo Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:
Heurıstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.
Heurıstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.
Andre Peric Tavares Aprendizado de Maquina
Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning
ML
Duvidas
7/21/2019 Elevadores and Reinforcement Learning
http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 44/44
Andre Peric Tavares Aprendizado de Maquina