Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
1
4I702 CM 9
Apprentissage par renforcement
Modèles mathématiques etcomputationnels en neurosciences
1
● Principe d’apprentissage supervisé :
● Principe d’apprentissage non-supervisé :
● Principe d’apprentissage par renforcement :
Apprentissage
Minimisation d’erreur
Corrélations dans les données
?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
0 ou 1 ?
Apprentissage● Principe d’apprentissage supervisé :
● Principe d’apprentissage non-supervisé :
● Principe d’apprentissage par renforcement :
Minimisation d’erreur
Corrélations dans les données
Maximisation de récompense
Apprentissage par renforcement au niveau comportemental
Conditionnement classique
Récompense
Stimulus
Pavlov, I. P. (1927). Conditioned reflexes. Oxford: Oxford University Press.
UCS - unconditioned stimulus UCR - unconditioned response CS - conditioned stimulus CR - conditioned response
Conditionnement opérant
Skinner, B. F. "The Behavior of Organisms: An Experimental Analysis", 1938 New York: Appleton-Century-Crofts
Stimulus
action action . . . action
Récompense (positive ou négative)
actionaction
Stimulus Stimulus Stimulus
☹
Boîte de Skinner
Navigation spatialeStimulus
action action . . . action
Récompense (positive ou négative)
actionaction
Stimulus Stimulus Stimulus
☹
Apprentissage par renforcement au niveau
neuronal
Apprentissage au niveau neuronal
• Neurones sont connectés par des synapses (chimiques ou électriques)
• Apprentissage correspond à des changements de l’efficacité synaptique - plasticité synaptique
EPSP • Avant l’apprentissage • Après l’apprentissage
Réponse à un PA
Apprentissage au niveau neuronal
présynaptique
postsynaptique
plasticité synaptique
Apprentissage associatif (hebbien)
EPSP • Avant l’apprentissage • Après l’apprentissage
présynaptique
postsynaptique
Récompense
Apprentissage par renforcement
Apprentissage au niveau neuronal
plasticité synaptique
EPSP • Avant l’apprentissage • Après l’apprentissage
Comment la récompense est représentée dans le cerveau ?
La dopamine : analogue cellulaire de la récompense
Neuromodulateur dopamine :
● Signal neuronal de récompense et de motivation
● Emis par des neurones dopaminergiques dans SN et ATV
● Fortement impliqué dans le phénomène d’addiction. La plupart de drogues augment le niveau de dopamine dans le cerveau
Neurones dopaminergiques se trouvent dans ● SN - Substance Noire ● ATV - Aire Tegmentale Ventrale Schultz, W., Dayan, P., & Montague, P. R.
(1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
présynaptique
postsynaptique
Récompense
Apprentissage par renforcement
Apprentissage au niveau neuronal
plasticité synaptique
EPSP • Avant l’apprentissage • Après l’apprentissage
neurones dopaminergiques
dopamine
présynaptique
postsynaptique
Apprentissage par renforcement
Apprentissage au niveau neuronal
plasticité synaptique
EPSP • Avant l’apprentissage • Après l’apprentissage
Étude expérimentale des neurones dopaminergiques
enregistrement de l’activité neuronale dans l’ATV
Étude expérimentale des neurones dopaminergiques
25
conditionnement opérant
Schultz, W., Apicella, P., & Ljungberg, T. (1993). Responses of monkey dopamine neurons to reward and conditioned stimuli during successive steps of learning a delayed response task. The Journal of Neuroscience, 13(3), 900–13.
CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense
temps
Avant apprentissage :le neurone est activé par l’arrivée de la récompense
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
Étude expérimentale des neurones dopaminergiques
temps
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
Étude expérimentale des neurones dopaminergiques
Après l'apprentissage :le neurone est activé par le stimulus prédictif (CS)
CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense
temps
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
Étude expérimentale des neurones dopaminergiques
Si, après l'apprentissage, la récompense est omise, l'activité du neurone décroît au moment attendu de la
récompense
CS - stimulus conditionné (stimulus qui est suivi par la récompense) R - récompense
Étude expérimentale des neurones dopaminergiques
L'activité d’un neurone dopaminergique signale l'erreur de prévision de la récompense, plutôt
que la récompense même
actDA = rreçu − rprévu
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
Théorie de l’apprentissage par renforcement
“Reinforcement learning: An introduction” Sutton & Barto, 1998
http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
30
n-Armed Bandit Problem
(machine à sous avec n bras)
● On considère une machine à sous avec actions possibles
● action a entraîne une récompense aléatoire r avec la moyenne
● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)
● Proposez une stratégie …
a1,…,aN
E(r | a)
N
n-Armed Bandit Problem
a1 aN…
r r
● On considère une machine à sous avec actions possibles
● action a entraîne une récompense aléatoire r avec la moyenne
● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)
● Proposez une stratégie …
a1,…,aN
E(r | a)
N
n-Armed Bandit Problem
• Tester chaque bras plusieurs fois afin de déterminer le bras a* avec la récompense moyenne maximale
• Toujours choisir le bras a*
a1 aN…
r r
n-Armed Bandit ProblemEn langage mathématique :
● Définir valeur d’une action Q(a) (inconnue) comme la vraie récompense moyenne correspondant à l’action a
● Comme la valeur est inconnue, on effectue une estimation après K épreuves
● Quand les valeurs de toutes les actions sont apprises, la stratégie optimale est de choisir l’action optimale :
Q(a) ≡ E(r | a)
QK (a) = r =r1(a)+ r2 (a)+…rK (a)
KSous cette forme le calcul de
l’estimation de Q(a) n’est pas très pratique, car il faut toujours
garder en mémoire toutes les récompenses précédentes …
a1 aN…
r r
a∗ = argmaxaQ(a)
“Reinforcement learning: An introduction”, Sutton & Barto, 1998, Chapter 2.1, 2.2, 2.5, 2.6
● On réécrit la formule sous forme suivante:
n-Armed Bandit Problem
QK (a) =1K
ri (a)i=1
K
∑ ⇒ QK+1 =QK +1
K +1rK+1 −QK( )
ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦
● La mise à jour de l’estimation à chaque pas:
QK+1 =QK + ΔQ, ΔQ = 1K +1
rK+1 −QK( )
● L’apprentissage s’arrête quand :
ΔQ(a) ≈ 0
taux d’apprentissage erreur de prévision
a1 aN…
r r
On garde en mémoire seulement l’estimation
précédente● Après l’apprentissage la meilleure action
a∗ = argmaxaQ(a)
n-Armed Bandit Problem… mais comment choisir les actions au début d’apprentissage quand nos estimations de Q(a) pour différentes actions ne sont pas précises ?
● Une solution possible : exploration - choix aléatoire des actions - pas efficace car n’exploite pas des bonnes actions
● Une autre solution : exploitation - toujours choisir l’action optimale a* - pas efficace, car n’explore pas d’autres actions (possiblement avec une valeur plus grande)“greedy policy” ou “stratégie glouton”
● Solution compromise : avec une petite probabilité ε choisir une action aléatoire, sinon choisir l’action optimale a*“ε - greedy policy” ou “stratégie ε - glouton”
Compromis exploration-exploitation :
une propriété de tous les algorithmes d’apprentissage par
renforcement
a1 aN…
r r
n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques
● Apprentissage de la fonction-valeur
ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦…r r
● Apprentissage de la fonction-valeur
ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦
Hypothèse : les activités de neurones dopaminergiques
représentent la mise à jour de la fonction valeur
actDA = rreçu − rprévu● Activités de neurones dans VTA
n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques
…r r
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
● Apprentissage de la fonction-valeur
ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦
actDA = rreçu − rprévu● Activités de neurones dans VTA
n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques
La théorie d’apprentissage par renforcement est la théorie actuelle
de l’apprentissage basé sur la récompense dans le cerveau
…r r
Hypothèse : les activités de neurones dopaminergiques
représentent la mise à jour de la fonction valeur
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.
Plusieurs machines à sous.
Processus de décision markovien
Plusieurs machines à sous indépendantes● On considère le même jeu qu’avant, mais avec
plusieurs machines à sous différentes. Une machine particulière définit un “état” (“state”) s. À chaque épreuve, une machine (un état) est choisie au hasard avec ses N actions possibles. Le but est toujours de maximiser la récompense totale
● La récompense obtenu dépend donc de l’état actuel et de l’action choisie. La valeur d’une action a dans un état s, ou la fonction-valeur, est définie par :
● L’estimation de la fonction-valeur se fait par
● On utilise la stratégie ε-glouton et l’action optimale
s=“rouge”
s=“bleu”
s=“vert”
Q(s,a) = E(r | s,a)
ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦
a∗ = argmaxaQ(s,a)
…r r
…r r
…r r La même chose qu’une seule machine à sous, sauf
que la valeur est une fonction de 2 variables
Cas général : plusieurs machines à sous connectées
● On commence à un état initial (une machine à sous particulière)
● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous
● Les récompenses ainsi que les transitions peuvent être stochastiques
● Le nombre d’états et d’actions peut être infini
Question principale : Comment jouer pour maximiser la récompense obtenue ?
r
Ce problème général est appelé Processus de Décision Markovien(Markov Decision Process, MDP)
Cas général : plusieurs machines à sous connectées
r
● On commence à un état initial (une machine à sous particulière)
● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous (les récompenses et les transitions sont prédéfinies, mais inconnues du joueur)
● Les récompenses ainsi que les transitions peuvent être stochastiques
● Le nombre des états et des actions peut être infini
MDP : formalisation du problème1. Dans un état s, le joueur (appelé
l’agent) choisit une action a
2. L’action choisie entraîne une récompense r (avec la moyenne )
3. et la transition à l’état suivant s’
4. où l’agent choisit l’action suivante a’ , etc.
Répéter les étapes 1-4 jusqu’à la fin du jeu (l’agent atteint l’état terminal), ou indéfiniment.
r
s
a
s’
a’
r r
… …
…
La question principale devient : comment sélectionner les actions afin de maximiser la
récompense totale future ?
E(r | s,a)
Le joueur choisit les actions. Les transitions entre les états et les
récompenses sont fixés par l’environnement
Exemple : MDP pour la navigation spatiale
x1,y1
N E
r=0 r=0
fin
r=10
S
r=0
…
xi,yi
O
N
E
S
OS
…
Exemple : MDP pour le conditionnement opérant
début
levier attendre 2s
lumière bleu
attendre
levier
r=0 r=1
fin
lumière rouge
r=10nourriture
attendre
levier
r=-10choc électrique
r=0
r=0 Boîte de Skinner
Afin de trouver la stratégie optimale il ne suffit pas de trouver une action avec la récompense immédiate
maximale pour chaque état
• Récompense totale à partir du moment t où le “facteur de dévaluation” (discount factor) pour assurer que
• La fonction-valeur que l’agent cherche à estimer :
• L’action optimale (si Q(s,a) était connue) :
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...= γ krt+k+1
k=0
∞
∑
0 ≤ γ ≤1
Q(st ,at ) = E(Rt | st ,at )
a∗ = argmaxaQ(st ,a)
st
at
st+1
at+1
rt+1
… …
…
MDP : formalisation du problème
La question principale devient : Comment estimer la fonction valeur ?
rt+2
Rt < ∞
Processus de décision markovien
Markov decision process (MDP)
Description formelle d’une classe de problèmes de décision qui peuvent être décrits comme une chaîne des transitions entre des états selon les actions choisies. La performance de l’agent qui résout la tache est mesurée
par la récompense totale obtenue.
Apprentissage par renforcement est un algorithme qui permet de trouver la solution optimale d’un MDP en
utilisant l’erreur de prévision de récompense. Cette erreur correspond à l’activité de neurones
dopaminergiques.
Il existe d’autres algorithmes pour résoudre un MDP (programmation dynamique, méthode de Monte-Carlo,
etc), qui ne semblent pas être biologiquement plausibles
Fonction-valeur
quelques exemples de petits MDP
La fonction-valeur s
a1
r=1
fin
Exemple simple : un état, deux actions
a2
r=0 Quelle est l’action optimale dans l’état s ?
Quel comportement correspond à la stratégie glouton (greedy) ?
Quel comportement correspond à la stratégie ε-greedy ?
Q(s,a) = E(Rt | s,a)
Q(s,a1) = ?Q(s,a2 ) = ?
s
a1
r=1
fin
Exemple simple : un état, deux actions
a2
r=0 Quelle est l’action optimale dans l’état s ?
Quel comportement correspond à la stratégie glouton (greedy) ?
Quel comportement correspond à la stratégie ε-greedy ?
Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0
a∗ = argmaxaQ(s,a) ⇒ a∗ = a1
La fonction-valeur ?Q(s,a) = E(Rt | s,a)
Un autre exemple : navigation dans un couloir rectiligne
Quelle est la stratégie optimale ?
Aller → dans chaque état Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
état terminal
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
Un autre exemple : navigation dans un couloir rectiligne
Calculer Q(a,s) si l’on suit la stratégie optimale
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...
Q(E,→) = E(Rt | E,→) =Q(D,→) = E(Rt |D,→) =Q(C,→) = E(Rt |C,→) =Q(B,→) =Q(A,→) =
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
Un autre exemple : navigation dans un couloir rectiligne
Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2
Q(B,→) = γ 3
Q(A,→) = γ 4
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...
Q(E,←) =Q(D,←) =Q(C,←) =Q(B,←) =Q(A,←) =
Calculer Q(a,s) si l’on suit la stratégie optimale
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
Un autre exemple : navigation dans un couloir rectiligne
Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2
Q(B,→) = γ 3
Q(A,→) = γ 4
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...
Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2
Q(D,←) = γ 3
Q(C,←) = γ 4
Q(B,←) = γ 5
Q(A,←) = 0
Calculer Q(a,s) si l’on suit la stratégie optimale
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
Un autre exemple : navigation dans un couloir rectiligne
Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2
Q(B,→) = γ 3
Q(A,→) = γ 4
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...
Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2
Q(D,←) = γ 3
Q(C,←) = γ 4
Q(B,←) = γ 5
Q(A,←) = 0
Sachant Q(s,a) on peut choisir toujours l’action
optimale …
Calculer Q(a,s) si l’on suit la stratégie optimale
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
Un autre exemple : navigation dans un couloir rectiligne
Si l’on suit la stratégie ε-glouton …
Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) =……
Rt = rt+1 + γ rt+2 + γ2rt+3 + ...
Le calcul devient plus difficile, car on doit calculer l’espérance d’une variable aléatoire qui dépend de la valeur de ε et ɣ
Pour résoudre un MDP, il faut déterminer la fonction-valeur.
L’action optimale dans chaque état correspond à l’action qui suit le gradient de la
fonction-valeur.
Mais pour la plupart des cas cette fonction est difficile à calculer …
On cherche un algorithme itératif pour
effectuer une approximation de la fonction-valeur dans le cas d’un MDP général
Apprentissage de la fonction valeur pour un
MDP général
Q(s,a) = E(r | s,a)
ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦
a∗ = argmaxaQ(s,a)
Fonction-valeur
Apprentissage de la fonction-valeur
Action optimale
r r r
… …
…
Q(s,a) = E(Rt | s,a)Fonction-valeur
ΔQ(s,a) = ?
Apprentissage de la fonction-valeur
a∗ = argmaxaQ(s,a)
Action optimale
Machines à sous indépendantes
MDP général
Solution d’un MDP général
Q(s,a) = E(Rt | s,a)Q(s,a) = E(rt+1 + γ rt+2 + γ
2rt+3 + ... | s,a)Q(s,a) = E(rt+1 | s,a)+ γ E(rt+2 + γ rt+3 + ... | s ',a ')
Q(s,a) = E(rt+1 | s,a)+ γQ(s ',a ')
ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦
Algorithme SARSA
r
s
a
s’
a’
r r
… …
… Apprentissage de la fonction-valeur
Équation de Bellman pour la fonction-valeur
SARSA est un des algorithmes plus généralement connus comme algorithmes de “TD-learning” (apprentissage à la base de Différence Temporelle)
Q(s,a) = E(r | s,a)
ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦
a∗ = argmaxaQ(s,a)
Fonction-valeur
Apprentissage de la fonction-valeur
Action optimale
r r r
… …
…
Q(s,a) = E(r | s,a)+ γQ(s ',a ')Fonction-valeur
Apprentissage de la fonction-valeur
a∗ = argmaxaQ(s,a)
Action optimale
Machines à sous indépendantes
MDP général
ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦
Algorithme SARSA
• Initialiser toutes les valeurs
• Répéter (pour chaque épreuve) : - Mettre l’agent à l’état initial s - Choisir action a selon la stratégie ε-greedy - Répéter (jusqu’à la fin de l’épreuve) Exécuter a, obtenir r, observer s’ Choisir a’ selon la stratégie ε-greedy Mettre à jour l’estimation de la fonction-valeur :
Q(s,a) = 0
Q(s,a)←Q(s,a)+η r + γQ(s ',a ')−Q(s,a)[ ]ΔQ(s,a)
! "#### $####
a← a 's← s '
r
s
a
s’
a’
r r
… …
…
s
a1
r=1
fin
Solution d’un MDP : un état, deux actions
a2
r=0 • Mise à jour après chaque épreuve :
ΔQ(s,ak ) =η r + γ Q(s ',a ')=0
!"# $# −Qpréc (s,ak )⎡
⎣⎢⎢
⎤
⎦⎥⎥
• Initialisation de la fonction-valeur :
Q0 (s,a1) = 0Q0 (s,a2 ) = 0
On a vu que la vraie fonction-valeur est :
Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0
Car il n’y a pas de l’état s’
• L’état stable de l’algorithme :
ΔQ(s,a1) = 0 ⇒ Q(s,a1) = r
ΔQ(s,a0 ) = 0 ⇒ Q(s,a0 ) = 0
Navigation dans un couloir rectiligne
- exécute a, obtient r, observe s’
- choisit une nouvelle action a’ et met à jour l’estimation pour Q
ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦
• Initialisation de la fonction-valeur :
Q(s,a) = 0 pour tout s,a
• L’agent commence dans un état initial (arbitraire) et choisit une action a selon la stratégie ε-greedy
• Il répète jusqu’il arrive à l’état terminal :
• Répéter l’épreuve jusqu’à
Actions: ←, →
Etats : A,B,C,D,E
Récompense: 1 à la sortie à droite, 0 sinon
ΔQ(s,a) ≈ 0
Les réseaux de neurones ?
Navigation dans un couloir rectiligne
Comment apprendre la fonction valeur ?
…
… … 😊
!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état
Q(!s,an ) = wnixii=0
9
∑
x0x1 x9
Fonction-valeur :
Action optimale : a∗ = argmaxaQ(!s,a)
wki
Signal de récompense
Q(!s,a1) Q(!s,a2 )
Navigation dans un couloir rectiligne
Comment apprendre la fonction valeur ?
Selon l’algorithme SARSAΔQ(!s,a) =η r + γQ(!s ',a ')−Q(!s,a)[ ]
Minimum de la fonction-erreur correspond à ΔQ(s,a) ≈ 0
On construit une fonction-erreur
E = 12
ΔQ(s,a)[ ]s,a∑
2
= E (s,a)
s,a∑
…
… … 😊
Q(!s,a1) Q(!s,a2 )
x0x1 x9
wki
Signal de récompense
!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état
Q(!s,an ) = wnixii=0
9
∑Fonction-valeur :
Action optimale : a∗ = argmaxaQ(!s,a)
Le but est d’obtenir ΔQ(!s,a) = 0
Navigation dans un couloir rectiligne
Minimisation de la fonction-erreur
E (s,a) ( !w) = 12r + γQ(s ',a ')−Q(s,a)[ ]2
Δwni = −η ∂E (s,a)
∂wni
Δwni =ηδ n∂Q(s,an )∂wni
=ηδ nxi
δ n = r + γQ(s ',a ')−Q(s,an )
Descent de gradient
Règle - delta
l’erreur-delta correspond aux activités de neurones dopaminergiques
…
… … 😊
x0x1 x9
wki
Signal de récompense
!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état
Q(!s,an ) = wnixii=0
9
∑Fonction-valeur :
Action optimale : a∗ = argmaxaQ(!s,a)
Q(!s,a1) Q(!s,a2 )
Réseau de neurones pour résoudre un MDP général
…
Q(s,an )
wki
Signal de récompense(dopamine)
xi!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état
Q(!s,an ) = wnixii=0
9
∑Fonction-valeur :
Action optimale : a∗ = argmaxaQ(!s,a)