Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Reinforcement Learning(Aprendizado por reforço)
Karla FigueiredoDEE/PUC-Rio
Plano de Aulas:Plano de Aulas:Reinforcement Learning
– Conceitos básicos– Elementos de um sistema RL/Características
Fundamentos Teóricos– Processos de Decisão de Markov– Propriedade de Markov– Funções de Valor– Aprendizado RL
Métodos para a solução do problema de RL– Programação Dinâmica– Monte Carlo– Diferenças Temporais
TDAprendizado on-policy e off-policy
– Q-Learning– SARSA
Eligibility Traces Estudo de Casos
2
BibliografiaBibliografiaSUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.
KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.
RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: InternationalJoint Conference on Neural Networks ed. : INNS Press, 1999.
SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.
SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.
BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. Prentice Hall, Englewood Cliffs, NJ, 1987
BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 1957.
• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491.
• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safelyapproximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.
• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-37.
BibliografiaBibliografia
3
Reinforcement LearningConceitos Básicos
Muitas vezes é impraticável o uso de aprendizagem supervisionada
Como se aprende a escolher ações apenas interagindo com o ambiente?Como obter exemplos do comportamento correto e representativo para qualquer situação ?E se o agente for atuar em um ambiente desconhecido?
MotivaçãoMotivação
Exemplo:Criança adquirindo coordenação motoraRobô interagindo com um ambiente para atingir objetivo(s)
4
HistóricoHistórico
ReinforcementReinforcementLearningLearningModernoModerno
Psicologia Controle
Bellman, 1950s
Thorndike, 1910sLei do Efeito
seleção e associação
ReinforcementReinforcement LearningLearning SupervisedSupervised LearningLearning
Aprendizado a partir da interação “learner –environment”Baseado no “tentativa e erro”Existe processo de busca (exploration) no espaçoOrientado a objetivo
Aprendizado a partir de padrões entrada -saída.Baseado em minimizar um erro.Busca limitada ao valores dos padrões padrões entrada-saídaOrientado a aproximação de função
5
Aprendizado por reforçoAprendizado por reforço
Agente
Percepções(sensores)
Estado (modelo do mundo)
Ambiente
Ação Reforço (+/-)
• O agente recebe do ambiente um valor de resposta (recompensa).
• Esta recompensa avalia o desempenho do agente durante o processo
de aprendizado.
st+1Ambiente
Estadost ∈S
Reforçort
rt+1
ação at ∈ A(st)
Agente
ReinforcementReinforcement LearningLearning
6
O que é aprendizado por reforço ?O que é aprendizado por reforço ?
Problema de aprendizagem pode ser definido:–– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante
de tempo de tempo tt::
o agente está em um o agente está em um estadoestado ssexecuta uma executa uma açãoação aavai para um vai para um estadoestado s’s’recebe uma recebe uma recompensarecompensa rr
Algumas aplicaçõesAlgumas aplicações
[Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:
– Vitória: +100– Derrota: – 100– Zero para os demais estados do jogo (delayed reward)– Após 1 milhão de partidas contra ele mesmo, joga tão bem
quanto o melhor jogador humano
7
Algumas aplicações
Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)
– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço
– RL em situações específicas2 atacantes contra 2 defensoreshabilidades básicas
Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...
Reinforcement LearningReinforcement Learning
Model-BasedModel-Free
off-policy on-policy
Diferença TemporalDiferença Temporal
SARSA
Q-learning
R-learning
Qyna
Programação Dinâmica + Monte Carlo
AHC (Actor Heuristic Critic ou Actor-Critic Method)
Markov
8
Plano de Aulas:
Reinforcement Learning– Conceitos básicos– Elementos de um sistema RL/Características
Fundamentos Teóricos– Processos de Decisão de Markov– Propriedade de Markov– Funções de Valor– Aprendizado RL
Métodos para a solução do problema de RL– Programação Dinâmica– MonteCarlo– Diferenças Temporais
TDAprendizado on-policy e off-policyQ-LearningSARSA
– Eligibility Traces Estudo de Casos
Reinforcement Learning são métodos de aprendizado obtido pela interação de um agente com o ambienteexterno.
Aprender o mapeamento de estados e ações para escolher as ações ótimas a serem tomadas dado um objetivo do agente.
A métrica da qualidade da ação escolhida é o reforçorecebido após ter sido tomada a ação no estado atual.
ReinforcementReinforcement LearningLearning
9
Elementos de um sistema RLElementos de um sistema RL
Ambiente
Agente
Política
Reforço
Retorno
Estado
Elementos de um sistema RLElementos de um sistema RL
Ambiente: É o sistema físico externo.
Agente: inserido no ambiente, é o aprendiz e toma ações que mudam o ambiente.
Política (πt): Mapeamento entre estados e ações. Representa o comportamento do sistema no ambiente no tempo t.
A política Πt (s,a) é a probabilidade da ação at=a se st=s
10
Política de ações (Política de ações (ππ))
Função que modela o comportamento do agente– Mapeia estados em ações
Pode ser vista como um conjunto de regras do tipo sn → am
– Exemplo:Se estado s = (inimigo próximo, estou perdendo e tempo acabando) então
ação a = (usar magia);
Se estado s =(outro estado) então ...
Reforço (r): É um valor escalar, resposta do ambiente dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.
A partir do reforço é obtida outra função que é fundamental no processo de aprendizado do agente.
O reforço representa o que deve ser feito, não como fazer.
Elementos de um sistema RLElementos de um sistema RL
11
Retorno:
O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Retorno esperado
Ttttt rrrrR ++++= +++ L321
∑∞
=+++++ =+++=
013
221
kkt
ktttt rrrrR γγγ L
Elementos de um sistema RLElementos de um sistema RL
Quanto T=4 → γ (taxa de desconto)
Onde: 0<=γ<=1
Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema
– Formado pelas percepções do agente + modelo do mundo;
– Deve prover informação para o agente de quais ações podem ser executadas;
– A representação deste estado deve ser suficiente para que o agente tome suas decisões.
Elementos de um sistema RLElementos de um sistema RL
12
• As ações são escolhas feitas pelos agentes;
• As recompensas são a base para avaliação das
escolhas;
• Os estados são a base para se fazer as escolhas;
Elementos de um sistema RLElementos de um sistema RL
Plano de Aulas:
Reinforcement Learning– Conceitos básicos– Elementos de um sistema RL/Características
Fundamentos Teóricos– Processos de Decisão de Markov– Propriedade de Markov– Funções de Valor– Aprendizado RL
Métodos para a solução do problema de RL– Programação Dinâmica– MonteCarlo– Diferenças Temporais
TDAprendizado on-policy e off-policyQ-LearningSARSA
– Eligibility Traces Estudo de Casos
13
Reinforcement LearningFundamentos Teóricos
Propriedade de Propriedade de MarkovMarkov
{ }00111111 ,,,,,,,,,'Pr asrrasrasrrss tttttttt K−−−++ ==
No caso mais geral, se a resposta do ambiente em t+1, para uma ação em t depende de todo o histórico de ações até o momento atual, adinâmica do ambiente é definida pela especificação completa da distribuição de probabilidades:
14
Propriedade de Propriedade de MarkovMarkov
Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.
{ }tttt asrrss ,|,'Pr 11 == ++
Se o ambiente tem propriedade de Markov, então ele pode prever e o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.
É possível criar soluções incrementais, facilitando a implementação computacional.
Assim a decisão de que ação tomar não pode depender da seqüência de estados anteriores
Exemplo:Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não
Propriedade de Propriedade de MarkovMarkov
15
Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDMEm RL, o ambiente deve ser modelado como um Processo de Decisão de Markov (Markovian Decision Process MDP)
Um MDP definido:Um conjunto de estados SUm conjunto de ações A(s)Uma função de reforço R(s, s’,a), onde R = S × A → R, Uma função de probabilidade P(s, s’,a), onde P = S × A → Pde transição entre estados
Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL
ts 2+ts1+ts 3+tsta 1+ta 2+ta 3+ta
1+tr 2+tr 3+tr... ...
Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDM
1-β, -3β, Rsearch
1, Rwait
1- α, Rsearch
1, Rwait
α, Rsearch
Probabilidades de Transição
Valor Esperado do Reforço
resgate
16
Processo de Decisão de Processo de Decisão de MarkovMarkov finito e discreto no tempofinito e discreto no tempo
• ambiente evolui probabilisticamente baseado num conj. finito e discreto de estados
• o estado possui conj. ações finito, onde a mais adequada deve ser aprendida;
• cada ação executada deve ser avaliada, • os estados são observados, ações são executadas e reforços são
relacionados
Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDM
Exemplos de PDMs
Ociosidade (tempo sem visitas) do lugar visitado atualmente
Ir para algum lugar vizinho do mapa
Posição no mapa (atual e passadas)
Agente patrulhador
(Sangue tirado –sangue perdido)
Mover-se em uma determinada direção, lançar magia, bater, etc...
Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc...
Agente em jogo de luta
#capturas –#perdas
Mover uma determinada peça
Configurações do tabuleiro
Agente jogador de damas
RecompensasAçõesEstadosProblema
17
Função de ValorFunção de Valor
RL → Função de Valor → r → a
Funções de Valor são definidas com respeito a uma política particular.
Função de Valor: Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política
{ }⎭⎬⎫
⎩⎨⎧
==== ∑∞
=++
01)(
ktkt
ktt ssrEssREsV γππ
π
{ }⎭⎬⎫
⎩⎨⎧
====== ∑∞
=++
01 ,,),(
kttkt
kttt aassrEaassREasQ γππ
π
A função de valor representa o reforço esperado a longo prazo.
Função de valor do estado para π
Função de valor da ação para π
Função de ValorFunção de Valor
18
Para qualquer π e s a função de valor de s em π éavaliada para os possíveis s´:
Equação de Bellman:Relação valor do estado e dos valores dos estados sucessivos
Função de ValorFunção de Valor
A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.
Valor deste estado é o valor esperado para o próximo estado + reforço esperado
Backup diagrams: formam a base das operações de atualização
Função de ValorFunção de Valor
19
Objetivo do RLObjetivo do RL
O objetivo do RL é maximizar o reforço total (função valor) obtido a longo prazo
Busca de uma política que maximize o valor esperado de reforço para cada estado s do conjunto S
)(: sAaSs ∈→∈π
Funções de Valor ÓtimasFunções de Valor Ótimas
Solucionar RL → encontrar a política ótima.
A π é melhor π´ se o retorno esperado é maior ou igual para todos os estados.
Se π>= π´, ⇔ Vπ(s) >= Vπ´(s) para todo s ∈ S
Se existe (e sempre existe) uma π que é melhor ou igual a todas as outras políticas, então π é ótima
20
Funções Valor ÓtimasFunções Valor Ótimas
Se maximizamos (como definido para encontrar a função valor ótima), temos que:
{ }
{ }aassasQrE
asQasQ
sssVrE
sVsV
tttt
sa
ttta
sa
==+=
=
=+=
=
++
∈
++
∈
,|)',(max
),(max),(
|)(max
)(max)(
1*
1
*
)(
*
1*
1
*
)(
*
γ
γ
π
π
π
π
A
A
Estas são as equações de otimalidade de Bellman
Funções Valor ÓtimasFunções Valor Ótimas
Estas são as duasformas para a Equação de otimalidadede Bellman
21
FuncõesFuncões Valor ótimasValor ótimas
{ }
{ }aassasQrE
asQasQ
sssVrE
sVsV
tttat
sa
ttta
sa
==+=
=
=+=
=
++
∈
++
∈
,|)',(max
),(max),(
|)(max
)(max)(
1*
'1
*
)(
*
11
*
)(
*
γ
γ
π
π
π
π
A
A
Das equações de Bellman, temos que a forma de enxergar o ótimo é
Funções Valor ótimas: Políticas ÓtimasFunções Valor ótimas: Políticas Ótimas
Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):
Que representam políticas ótimas:
)(max)(* sVsV π
π= ),(max),(* asQasQ π
π=
),(maxarg)(* * asQsπ
π =
Desta forma, π* representa a política mais ambiciosarespeito de Q*
22
Como é que o RL funciona?Como é que o RL funciona?
*
*
QQVV
→
→
*ππ →
Contínuo e ON-Line,RL age e aprende de modo simultâneo
Experiência
Política
Função de Valor SELEÇÃO DA
AÇÃO
ALGORITMO DEAPRENDIZADO
POR REFORÇO
**21
21 πππ ππ →→→→→→ VVV L
Funções Valor ótimas: Políticas ÓtimasFunções Valor ótimas: Políticas Ótimas
Três Suposições Verdadeiras:
• A dinâmica do ambiente é conhecida;
• Recurso computacional suficiente;
• Propriedades de Markov.