Download pdf - Elevadores and Reinforcement Learning

7/21/2019 Elevadores and Reinforcement Learning

http://slidepdf.com/reader/full/elevadores-and-reinforcement-learning 1/44

Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning

ML

Otimizacao do Funcionamento de Elevadores

Atraves de Reinforcement Learning

Andre Peric Tavares

E-mail: [email protected]

25 de maio de 2014

Andre Peric Tavares Aprendizado de Maquina

http://find/




ML

Introducao

A natureza do aprendizado esta intimamente ligada com a interacao como ambiente.


http://find/

http://goback/




ML

Introducao


Exemplos:(a) Crianca evita repetir acoes que resultaram em dor.


http://find/



Otimizacao do Funcionam ento de Elevadores Atraves de Reinforcem ent Learning ML

Introducao


Exemplos:(a) Crianca evita repetir acoes que resultaram em dor. o do jogo, decide

jogada e aprende com os resultados futuros.

(b) Jogador de xadrez verifica estado atual do jogo, toma acao e aprendecom suas consequencias.


http://find/




Behaviorismo

Behaviorismo

Enfase na interacao com o ambiente e conceito de reforco .


O i i ˜ d F i d El d A ´ d R i f L i

ML

https://www.youtube.com/watch?v=tV7Zp2B_mt8

http://find/




Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.


Oti i acao do F cio a e to de Ele ado es At a es de Rei fo ce e t Lea i g

ML


http://find/

http://goback/




Behaviorismo

Behaviorismo

ˆEnfase na interacao com o ambiente e conceito de reforco .

Reforco e uma consequencia que ira estimular o comportamento futuro.




ML



http://find/




Motivacao

Abordagem computacional ao aprendizado por interacao.



ML

http://find/




Motivacao

Abordagem computacional ao aprendizado por interacao.

Objetivo: Modelar um sistema de controle de elevadores atraves do RL.



ML

http://find/




MDP

Um Markov decision processes e uma tupla (S , A, {P sa}, γ , R ) em que:



ML

http://find/



¸ g

MDP


(a) S e o conjunto de estados. Cada elemento de S representa umacaracterıstica do estado.



ML

http://find/



MDP



(b) A e o conjunto de acoes.



ML

http://find/



MDP




(c) {P sa} sao as probabilidades de estado de transicao, isto e, adistribuicao de probabilidades para cada mudanca de estado atravesde uma acao.



ML

http://find/



MDP





(d) γ e o fator de desconto e pertence a [0, 1).



ML

http://find/



MDP





(d) γ e o fator de desconto e pertence a [0, 1).

(e) R e a funcao recompensa, que leva os elementos de S × A a R

, cujodomınio tambem pode ser descrito como apenas S .



ML

http://find/



MPD

Mecanica do MPD:

s 0



ML

http://find/



MPD

Mecanica do MPD:

s 0 →a0



ML

http://find/



MPD

Mecanica do MPD:

s 0 →a0 s 1



ML

http://find/



MPD

Mecanica do MPD:

s 0 →a0 s 1 →a1



ML

http://find/



MPD

Mecanica do MPD:

s 0 →a0 s 1 →a1 s 2



ML

http://find/



MPD

Mecanica do MPD:

s 0 →a0 s 1 →a1 s 2 → . . .



ML

http://find/



Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...



ML

R

http://find/



Recompensa

Recompensa total torna-se

R (s 0) + γ R (s 1) + γ 2R (s 2) + ...

Explicacao: O presente e mais importante do que o futuro.



ML

V l f ˜

http://find/



Valor e funcao recompensa

Uma polıtica π mapeia cada elemento do onjunto de estados S a umaacao a ∈ AValor do estado s sob a polıtica π, denotado por V π, que e a esperancada soma das recompensas:

V π(s ) = E [R (s 0) + γ R (s 1) + γ 2R (s 2) + ...]

E possıvel provar que a funcao acima satisfaz as Equacoes de Bellman:

V π(s ) = R (s ) + γ

s

P (s |s , π(s ))V π(s ).



ML

C di ˜

http://find/



Condicoes

• Restricoes (descer estando no terreo, subir estando no ultimo, etc.)



ML

C di ˜

http://find/



Condicoes


• No maximo um passageiro aguarda por andar.



ML

C di ˜

http://find/



Condicoes


• No maximo um passageiro aguarda por andar.• Todos os passageiros saem do elevador apenas no andar terreo.



ML

Implementacao

http://find/



Implementacao

Cada estado e computado como um vetor de 7 elementos

x = [c 1, c 2, c 3, c 4, p , v , o ]T



ML

Implementacao

http://find/



Implementacao


x = [c 1, c 2, c 3, c 4, p , v , o ]T

Em que

• c i representa o numero de pessoas que aguardam no andar i .



ML

Implementacao

http://find/



Implementacao


x = [c 1, c 2, c 3, c 4, p , v , o ]T

Em que


• p e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.



ML

Implementacao

http://find/



Implementacao


x = [c 1, c 2, c 3, c 4, p , v , o ]T

Em que



• v e a velocidade do elevador, pertencente a {−3, 0, 3}.



ML

Implementacao

http://find/



Implementacao


x = [c 1, c 2, c 3, c 4, p , v , o ]T

Em que




• o e o numero de pessoas que ocupam o elevador, tomando valoresentre {0, 1, 2, 3, 4}.



ML

Implementacao

http://find/



Implementacao


x = [c 1, c 2, c 3, c 4, p , v , o ]T

Em que




• o e o numero de pessoas que ocupam o elevador, tomando valoresentre {0, 1, 2, 3, 4}.

Assim, existem no total

24 × 5 × 3 × 5 = 1200

estados diferentes.



ML

Recompensa

http://find/

http://goback/



Recompensa

Formula:

p (x ) = −4

i =1

c i − o



ML

Recompensa

http://find/



Recompensa

Formula:

p (x ) = −4

i =1

c i − o

Interpretacao: Negativo do numero de passageiros aguardantes eocupantes.



ML

Execucao

http://find/

http://goback/



Execucao

Passo 1: Calcular π e construir o conjunto de acoes otimas.



ML

Execucao

http://find/

http://goback/



Execucao

Passo 1: Calcular π e construir o conjunto de acoes otimas.

function Algoritmo q-value(P sa, p , θ)Inicialize V π = 0 para todo x ∈ X , u ∈ U (arbitrario)k = 0repeat

for cada x ∈ X , u ∈ U doQ k +1(x , u ) =

x ∈X

P sa(x , u , x )[p (x , u , u ) + γ maxu ∈U Q k (x , u )]

end for

k ← k + 1until max x ,u |Q k (x , u ) −Q k −1(x , u )| < θ

return π∗

(x ) = arg maxu ∈U Q k (x , u )∀x ∈ X end function



ML

Resultados

http://find/



Resultados obtidos:



ML

Resultados

http://find/

http://goback/



Resultados obtidos:

Figura: :(



ML

Artigo original

http://find/

http://goback/



g g

Resultado no artigo Reinforcement Learning for Elevator Control , porYuan, X., Busoniu, L., Babuska, R:



ML

Artigo original

http://find/

http://goback/



g g


Heurıstica: Selecione aleatoriamente um passageiro aguardante, va ate o

seu andar e o leve diretamente ao terreo. Repita.



ML

Artigo original

http://goforward/

http://find/

http://goback/





seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.



ML

Artigo original

http://find/





seu andar e o leve diretamente ao terreo. Repita.Tempo medio (media da soma dos tempos de espera de todos a cadasegundo): aprox. 70s.

Heurıstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.



ML

Duvidas

http://find/




http://find/

http://goback/