Reinforcement Learning - inf.ufsc.brmauro.roisenberg/ine5377/Cursos-ICA/TAIC-RL-Intr… · 1 Reinforcement Learning (Aprendizado por reforço) Karla Figueiredo DEE/PUC-Rio Plano de

1

Reinforcement Learning(Aprendizado por reforço)

Karla FigueiredoDEE/PUC-Rio

Plano de Aulas:Plano de Aulas:Reinforcement Learning

– Conceitos básicos– Elementos de um sistema RL/Características

Fundamentos Teóricos– Processos de Decisão de Markov– Propriedade de Markov– Funções de Valor– Aprendizado RL

Métodos para a solução do problema de RL– Programação Dinâmica– Monte Carlo– Diferenças Temporais

TDAprendizado on-policy e off-policy

– Q-Learning– SARSA

Eligibility Traces Estudo de Casos

2

BibliografiaBibliografiaSUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.

KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.

RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: InternationalJoint Conference on Neural Networks ed. : INNS Press, 1999.

SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.

SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.

BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. Prentice Hall, Englewood Cliffs, NJ, 1987

BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 1957.

• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491.

• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safelyapproximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.

• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-37.

BibliografiaBibliografia

3

Reinforcement LearningConceitos Básicos

Muitas vezes é impraticável o uso de aprendizagem supervisionada

Como se aprende a escolher ações apenas interagindo com o ambiente?Como obter exemplos do comportamento correto e representativo para qualquer situação ?E se o agente for atuar em um ambiente desconhecido?

MotivaçãoMotivação

Exemplo:Criança adquirindo coordenação motoraRobô interagindo com um ambiente para atingir objetivo(s)

4

HistóricoHistórico

ReinforcementReinforcementLearningLearningModernoModerno

Psicologia Controle

Bellman, 1950s

Thorndike, 1910sLei do Efeito

seleção e associação

ReinforcementReinforcement LearningLearning SupervisedSupervised LearningLearning

Aprendizado a partir da interação “learner –environment”Baseado no “tentativa e erro”Existe processo de busca (exploration) no espaçoOrientado a objetivo

Aprendizado a partir de padrões entrada -saída.Baseado em minimizar um erro.Busca limitada ao valores dos padrões padrões entrada-saídaOrientado a aproximação de função

5

Aprendizado por reforçoAprendizado por reforço

Agente

Percepções(sensores)

Estado (modelo do mundo)

Ambiente

Ação Reforço (+/-)

• O agente recebe do ambiente um valor de resposta (recompensa).

• Esta recompensa avalia o desempenho do agente durante o processo

de aprendizado.

st+1Ambiente

Estadost ∈S

Reforçort

rt+1

ação at ∈ A(st)

Agente

ReinforcementReinforcement LearningLearning

6

O que é aprendizado por reforço ?O que é aprendizado por reforço ?

Problema de aprendizagem pode ser definido:–– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante

de tempo de tempo tt::

o agente está em um o agente está em um estadoestado ssexecuta uma executa uma açãoação aavai para um vai para um estadoestado s’s’recebe uma recebe uma recompensarecompensa rr

Algumas aplicaçõesAlgumas aplicações

[Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:

– Vitória: +100– Derrota: – 100– Zero para os demais estados do jogo (delayed reward)– Após 1 milhão de partidas contra ele mesmo, joga tão bem

quanto o melhor jogador humano

7

Algumas aplicações

Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

– RL em situações específicas2 atacantes contra 2 defensoreshabilidades básicas

Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...

Reinforcement LearningReinforcement Learning

Model-BasedModel-Free

off-policy on-policy

Diferença TemporalDiferença Temporal

SARSA

Q-learning

R-learning

Qyna

Programação Dinâmica + Monte Carlo

AHC (Actor Heuristic Critic ou Actor-Critic Method)

Markov

8

Plano de Aulas:

Reinforcement Learning– Conceitos básicos– Elementos de um sistema RL/Características


Métodos para a solução do problema de RL– Programação Dinâmica– MonteCarlo– Diferenças Temporais

TDAprendizado on-policy e off-policyQ-LearningSARSA

– Eligibility Traces Estudo de Casos

Reinforcement Learning são métodos de aprendizado obtido pela interação de um agente com o ambienteexterno.

Aprender o mapeamento de estados e ações para escolher as ações ótimas a serem tomadas dado um objetivo do agente.

A métrica da qualidade da ação escolhida é o reforçorecebido após ter sido tomada a ação no estado atual.

ReinforcementReinforcement LearningLearning

9

Elementos de um sistema RLElementos de um sistema RL

Ambiente

Agente

Política

Reforço

Retorno

Estado


Ambiente: É o sistema físico externo.

Agente: inserido no ambiente, é o aprendiz e toma ações que mudam o ambiente.

Política (πt): Mapeamento entre estados e ações. Representa o comportamento do sistema no ambiente no tempo t.

A política Πt (s,a) é a probabilidade da ação at=a se st=s

10

Política de ações (Política de ações (ππ))

Função que modela o comportamento do agente– Mapeia estados em ações

Pode ser vista como um conjunto de regras do tipo sn → am

– Exemplo:Se estado s = (inimigo próximo, estou perdendo e tempo acabando) então

ação a = (usar magia);

Se estado s =(outro estado) então ...

Reforço (r): É um valor escalar, resposta do ambiente dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.

A partir do reforço é obtida outra função que é fundamental no processo de aprendizado do agente.

O reforço representa o que deve ser feito, não como fazer.


11

Retorno:

O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Retorno esperado

Ttttt rrrrR ++++= +++ L321

∑∞

=+++++ =+++=

013

221

kkt

ktttt rrrrR γγγ L


Quanto T=4 → γ (taxa de desconto)

Onde: 0<=γ<=1

Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema

– Formado pelas percepções do agente + modelo do mundo;

– Deve prover informação para o agente de quais ações podem ser executadas;

– A representação deste estado deve ser suficiente para que o agente tome suas decisões.


12

• As ações são escolhas feitas pelos agentes;

• As recompensas são a base para avaliação das

escolhas;

• Os estados são a base para se fazer as escolhas;


Plano de Aulas:

Reinforcement Learning– Conceitos básicos– Elementos de um sistema RL/Características


Métodos para a solução do problema de RL– Programação Dinâmica– MonteCarlo– Diferenças Temporais

TDAprendizado on-policy e off-policyQ-LearningSARSA

– Eligibility Traces Estudo de Casos

13

Reinforcement LearningFundamentos Teóricos

Propriedade de Propriedade de MarkovMarkov

{ }00111111 ,,,,,,,,,'Pr asrrasrasrrss tttttttt K−−−++ ==

No caso mais geral, se a resposta do ambiente em t+1, para uma ação em t depende de todo o histórico de ações até o momento atual, adinâmica do ambiente é definida pela especificação completa da distribuição de probabilidades:

14


Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.

{ }tttt asrrss ,|,'Pr 11 == ++

Se o ambiente tem propriedade de Markov, então ele pode prever e o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.

É possível criar soluções incrementais, facilitando a implementação computacional.

Assim a decisão de que ação tomar não pode depender da seqüência de estados anteriores

Exemplo:Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não


15

Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDMEm RL, o ambiente deve ser modelado como um Processo de Decisão de Markov (Markovian Decision Process MDP)

Um MDP definido:Um conjunto de estados SUm conjunto de ações A(s)Uma função de reforço R(s, s’,a), onde R = S × A → R, Uma função de probabilidade P(s, s’,a), onde P = S × A → Pde transição entre estados

Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL

ts 2+ts1+ts 3+tsta 1+ta 2+ta 3+ta

1+tr 2+tr 3+tr... ...

Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDM

1-β, -3β, Rsearch

1, Rwait

1- α, Rsearch

1, Rwait

α, Rsearch

Probabilidades de Transição

Valor Esperado do Reforço

resgate

16

Processo de Decisão de Processo de Decisão de MarkovMarkov finito e discreto no tempofinito e discreto no tempo

• ambiente evolui probabilisticamente baseado num conj. finito e discreto de estados

• o estado possui conj. ações finito, onde a mais adequada deve ser aprendida;

• cada ação executada deve ser avaliada, • os estados são observados, ações são executadas e reforços são

relacionados

Processos de Decisão de Processos de Decisão de MarkovMarkov –– PDMPDM

Exemplos de PDMs

Ociosidade (tempo sem visitas) do lugar visitado atualmente

Ir para algum lugar vizinho do mapa

Posição no mapa (atual e passadas)

Agente patrulhador

(Sangue tirado –sangue perdido)

Mover-se em uma determinada direção, lançar magia, bater, etc...

Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc...

Agente em jogo de luta

#capturas –#perdas

Mover uma determinada peça

Configurações do tabuleiro

Agente jogador de damas

RecompensasAçõesEstadosProblema

17

Função de ValorFunção de Valor

RL → Função de Valor → r → a

Funções de Valor são definidas com respeito a uma política particular.

Função de Valor: Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política

{ }⎭⎬⎫

⎩⎨⎧

==== ∑∞

=++

01)(

ktkt

ktt ssrEssREsV γππ

π

{ }⎭⎬⎫

⎩⎨⎧

====== ∑∞

=++

01 ,,),(

kttkt

kttt aassrEaassREasQ γππ

π

A função de valor representa o reforço esperado a longo prazo.

Função de valor do estado para π

Função de valor da ação para π


18

Para qualquer π e s a função de valor de s em π éavaliada para os possíveis s´:

Equação de Bellman:Relação valor do estado e dos valores dos estados sucessivos


A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.

Valor deste estado é o valor esperado para o próximo estado + reforço esperado

Backup diagrams: formam a base das operações de atualização


19

Objetivo do RLObjetivo do RL

O objetivo do RL é maximizar o reforço total (função valor) obtido a longo prazo

Busca de uma política que maximize o valor esperado de reforço para cada estado s do conjunto S

)(: sAaSs ∈→∈π

Funções de Valor ÓtimasFunções de Valor Ótimas

Solucionar RL → encontrar a política ótima.

A π é melhor π´ se o retorno esperado é maior ou igual para todos os estados.

Se π>= π´, ⇔ Vπ(s) >= Vπ´(s) para todo s ∈ S

Se existe (e sempre existe) uma π que é melhor ou igual a todas as outras políticas, então π é ótima

20

Funções Valor ÓtimasFunções Valor Ótimas

Se maximizamos (como definido para encontrar a função valor ótima), temos que:

{ }

{ }aassasQrE

asQasQ

sssVrE

sVsV

tttt

sa

ttta

sa

==+=

=

=+=

=

++

∈

++

∈

,|)',(max

),(max),(

|)(max

)(max)(

1*

1

*

)(

*

1*

1

*

)(

*

γ

γ

π

π

π

π

A

A

Estas são as equações de otimalidade de Bellman

Funções Valor ÓtimasFunções Valor Ótimas

Estas são as duasformas para a Equação de otimalidadede Bellman

21

FuncõesFuncões Valor ótimasValor ótimas

{ }

{ }aassasQrE

asQasQ

sssVrE

sVsV

tttat

sa

ttta

sa

==+=

=

=+=

=

++

∈

++

∈

,|)',(max

),(max),(

|)(max

)(max)(

1*

'1

*

)(

*

11

*

)(

*

γ

γ

π

π

π

π

A

A

Das equações de Bellman, temos que a forma de enxergar o ótimo é

Funções Valor ótimas: Políticas ÓtimasFunções Valor ótimas: Políticas Ótimas

Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):

Que representam políticas ótimas:

)(max)(* sVsV π

π= ),(max),(* asQasQ π

π=

),(maxarg)(* * asQsπ

π =

Desta forma, π* representa a política mais ambiciosarespeito de Q*

22

Como é que o RL funciona?Como é que o RL funciona?

*

*

QQVV

→

→

*ππ →

Contínuo e ON-Line,RL age e aprende de modo simultâneo

Experiência

Política

Função de Valor SELEÇÃO DA

AÇÃO

ALGORITMO DEAPRENDIZADO

POR REFORÇO

**21

21 πππ ππ →→→→→→ VVV L

Funções Valor ótimas: Políticas ÓtimasFunções Valor ótimas: Políticas Ótimas

Três Suposições Verdadeiras:

• A dinâmica do ambiente é conhecida;

• Recurso computacional suficiente;

• Propriedades de Markov.

Documents

Reinforcement Learning - inf.ufsc.brmauro.roisenberg/ine5377/Cursos-ICA/TAIC-RL-Intr… · 1 Reinforcement Learning (Aprendizado por reforço) Karla Figueiredo DEE/PUC-Rio Plano de