70
1 4I702 CM 9 [email protected] Apprentissage par renforcement Modèles mathématiques et computationnels en neurosciences 1

Modèles mathématiques et computationnels en neurosciences

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modèles mathématiques et computationnels en neurosciences

1

4I702 CM 9

[email protected]

Apprentissage par renforcement

Modèles mathématiques etcomputationnels en neurosciences

1

Page 2: Modèles mathématiques et computationnels en neurosciences

● Principe d’apprentissage supervisé :

● Principe d’apprentissage non-supervisé :

● Principe d’apprentissage par renforcement :

Apprentissage

Minimisation d’erreur

Corrélations dans les données

?

Page 3: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 4: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 5: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 6: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 7: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 8: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 9: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 10: Modèles mathématiques et computationnels en neurosciences

0 ou 1 ?

Page 11: Modèles mathématiques et computationnels en neurosciences

Apprentissage● Principe d’apprentissage supervisé :

● Principe d’apprentissage non-supervisé :

● Principe d’apprentissage par renforcement :

Minimisation d’erreur

Corrélations dans les données

Maximisation de récompense

Page 12: Modèles mathématiques et computationnels en neurosciences

Apprentissage par renforcement au niveau comportemental

Page 13: Modèles mathématiques et computationnels en neurosciences

Conditionnement classique

Récompense

Stimulus

Pavlov, I. P. (1927). Conditioned reflexes. Oxford: Oxford University Press.

UCS - unconditioned stimulus UCR - unconditioned response CS - conditioned stimulus CR - conditioned response

Page 14: Modèles mathématiques et computationnels en neurosciences

Conditionnement opérant

Skinner, B. F. "The Behavior of Organisms: An Experimental Analysis", 1938 New York: Appleton-Century-Crofts

Stimulus

action action . . . action

Récompense (positive ou négative)

actionaction

Stimulus Stimulus Stimulus

Boîte de Skinner

Page 15: Modèles mathématiques et computationnels en neurosciences

Navigation spatialeStimulus

action action . . . action

Récompense (positive ou négative)

actionaction

Stimulus Stimulus Stimulus

Page 16: Modèles mathématiques et computationnels en neurosciences

Apprentissage par renforcement au niveau

neuronal

Page 17: Modèles mathématiques et computationnels en neurosciences

Apprentissage au niveau neuronal

• Neurones sont connectés par des synapses (chimiques ou électriques)

• Apprentissage correspond à des changements de l’efficacité synaptique - plasticité synaptique

EPSP • Avant l’apprentissage • Après l’apprentissage

Réponse à un PA

Page 18: Modèles mathématiques et computationnels en neurosciences

Apprentissage au niveau neuronal

présynaptique

postsynaptique

plasticité synaptique

Apprentissage associatif (hebbien)

EPSP • Avant l’apprentissage • Après l’apprentissage

Page 19: Modèles mathématiques et computationnels en neurosciences

présynaptique

postsynaptique

Récompense

Apprentissage par renforcement

Apprentissage au niveau neuronal

plasticité synaptique

EPSP • Avant l’apprentissage • Après l’apprentissage

Page 20: Modèles mathématiques et computationnels en neurosciences

Comment la récompense est représentée dans le cerveau ?

Page 21: Modèles mathématiques et computationnels en neurosciences

La dopamine : analogue cellulaire de la récompense

Neuromodulateur dopamine :

● Signal neuronal de récompense et de motivation

● Emis par des neurones dopaminergiques dans SN et ATV

● Fortement impliqué dans le phénomène d’addiction. La plupart de drogues augment le niveau de dopamine dans le cerveau

Neurones dopaminergiques se trouvent dans ● SN - Substance Noire ● ATV - Aire Tegmentale Ventrale Schultz, W., Dayan, P., & Montague, P. R.

(1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Page 22: Modèles mathématiques et computationnels en neurosciences

présynaptique

postsynaptique

Récompense

Apprentissage par renforcement

Apprentissage au niveau neuronal

plasticité synaptique

EPSP • Avant l’apprentissage • Après l’apprentissage

Page 23: Modèles mathématiques et computationnels en neurosciences

neurones dopaminergiques

dopamine

présynaptique

postsynaptique

Apprentissage par renforcement

Apprentissage au niveau neuronal

plasticité synaptique

EPSP • Avant l’apprentissage • Après l’apprentissage

Page 24: Modèles mathématiques et computationnels en neurosciences

Étude expérimentale des neurones dopaminergiques

Page 25: Modèles mathématiques et computationnels en neurosciences

enregistrement de l’activité neuronale dans l’ATV

Étude expérimentale des neurones dopaminergiques

25

conditionnement opérant

Schultz, W., Apicella, P., & Ljungberg, T. (1993). Responses of monkey dopamine neurons to reward and conditioned stimuli during successive steps of learning a delayed response task. The Journal of Neuroscience, 13(3), 900–13.

Page 26: Modèles mathématiques et computationnels en neurosciences

CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense

temps

Avant apprentissage :le neurone est activé par l’arrivée de la récompense

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Étude expérimentale des neurones dopaminergiques

Page 27: Modèles mathématiques et computationnels en neurosciences

temps

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Étude expérimentale des neurones dopaminergiques

Après l'apprentissage :le neurone est activé par le stimulus prédictif (CS)

CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense

Page 28: Modèles mathématiques et computationnels en neurosciences

temps

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Étude expérimentale des neurones dopaminergiques

Si, après l'apprentissage, la récompense est omise, l'activité du neurone décroît au moment attendu de la

récompense

CS - stimulus conditionné (stimulus qui est suivi par la récompense) R - récompense

Page 29: Modèles mathématiques et computationnels en neurosciences

Étude expérimentale des neurones dopaminergiques

L'activité d’un neurone dopaminergique signale l'erreur de prévision de la récompense, plutôt

que la récompense même

actDA = rreçu − rprévu

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Page 30: Modèles mathématiques et computationnels en neurosciences

Théorie de l’apprentissage par renforcement

“Reinforcement learning: An introduction” Sutton & Barto, 1998

http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html

30

Page 31: Modèles mathématiques et computationnels en neurosciences

n-Armed Bandit Problem

(machine à sous avec n bras)

Page 32: Modèles mathématiques et computationnels en neurosciences

● On considère une machine à sous avec actions possibles

● action a entraîne une récompense aléatoire r avec la moyenne

● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)

● Proposez une stratégie …

a1,…,aN

E(r | a)

N

n-Armed Bandit Problem

a1 aN…

r r

Page 33: Modèles mathématiques et computationnels en neurosciences

● On considère une machine à sous avec actions possibles

● action a entraîne une récompense aléatoire r avec la moyenne

● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)

● Proposez une stratégie …

a1,…,aN

E(r | a)

N

n-Armed Bandit Problem

• Tester chaque bras plusieurs fois afin de déterminer le bras a* avec la récompense moyenne maximale

• Toujours choisir le bras a*

a1 aN…

r r

Page 34: Modèles mathématiques et computationnels en neurosciences

n-Armed Bandit ProblemEn langage mathématique :

● Définir valeur d’une action Q(a) (inconnue) comme la vraie récompense moyenne correspondant à l’action a

● Comme la valeur est inconnue, on effectue une estimation après K épreuves

● Quand les valeurs de toutes les actions sont apprises, la stratégie optimale est de choisir l’action optimale :

Q(a) ≡ E(r | a)

QK (a) = r =r1(a)+ r2 (a)+…rK (a)

KSous cette forme le calcul de

l’estimation de Q(a) n’est pas très pratique, car il faut toujours

garder en mémoire toutes les récompenses précédentes …

a1 aN…

r r

a∗ = argmaxaQ(a)

“Reinforcement learning: An introduction”, Sutton & Barto, 1998, Chapter 2.1, 2.2, 2.5, 2.6

Page 35: Modèles mathématiques et computationnels en neurosciences

● On réécrit la formule sous forme suivante:

n-Armed Bandit Problem

QK (a) =1K

ri (a)i=1

K

∑ ⇒ QK+1 =QK +1

K +1rK+1 −QK( )

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦

● La mise à jour de l’estimation à chaque pas:

QK+1 =QK + ΔQ, ΔQ = 1K +1

rK+1 −QK( )

● L’apprentissage s’arrête quand :

ΔQ(a) ≈ 0

taux d’apprentissage erreur de prévision

a1 aN…

r r

On garde en mémoire seulement l’estimation

précédente● Après l’apprentissage la meilleure action

a∗ = argmaxaQ(a)

Page 36: Modèles mathématiques et computationnels en neurosciences

n-Armed Bandit Problem… mais comment choisir les actions au début d’apprentissage quand nos estimations de Q(a) pour différentes actions ne sont pas précises ?

● Une solution possible : exploration - choix aléatoire des actions - pas efficace car n’exploite pas des bonnes actions

● Une autre solution : exploitation - toujours choisir l’action optimale a* - pas efficace, car n’explore pas d’autres actions (possiblement avec une valeur plus grande)“greedy policy” ou “stratégie glouton”

● Solution compromise : avec une petite probabilité ε choisir une action aléatoire, sinon choisir l’action optimale a*“ε - greedy policy” ou “stratégie ε - glouton”

Compromis exploration-exploitation :

une propriété de tous les algorithmes d’apprentissage par

renforcement

a1 aN…

r r

Page 37: Modèles mathématiques et computationnels en neurosciences

n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques

● Apprentissage de la fonction-valeur

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦…r r

Page 38: Modèles mathématiques et computationnels en neurosciences

● Apprentissage de la fonction-valeur

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦

Hypothèse : les activités de neurones dopaminergiques

représentent la mise à jour de la fonction valeur

actDA = rreçu − rprévu● Activités de neurones dans VTA

n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques

…r r

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Page 39: Modèles mathématiques et computationnels en neurosciences

● Apprentissage de la fonction-valeur

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦

actDA = rreçu − rprévu● Activités de neurones dans VTA

n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques

La théorie d’apprentissage par renforcement est la théorie actuelle

de l’apprentissage basé sur la récompense dans le cerveau

…r r

Hypothèse : les activités de neurones dopaminergiques

représentent la mise à jour de la fonction valeur

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

Page 40: Modèles mathématiques et computationnels en neurosciences

Plusieurs machines à sous.

Processus de décision markovien

Page 41: Modèles mathématiques et computationnels en neurosciences

Plusieurs machines à sous indépendantes● On considère le même jeu qu’avant, mais avec

plusieurs machines à sous différentes. Une machine particulière définit un “état” (“state”) s. À chaque épreuve, une machine (un état) est choisie au hasard avec ses N actions possibles. Le but est toujours de maximiser la récompense totale

● La récompense obtenu dépend donc de l’état actuel et de l’action choisie. La valeur d’une action a dans un état s, ou la fonction-valeur, est définie par :

● L’estimation de la fonction-valeur se fait par

● On utilise la stratégie ε-glouton et l’action optimale

s=“rouge”

s=“bleu”

s=“vert”

Q(s,a) = E(r | s,a)

ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦

a∗ = argmaxaQ(s,a)

…r r

…r r

…r r La même chose qu’une seule machine à sous, sauf

que la valeur est une fonction de 2 variables

Page 42: Modèles mathématiques et computationnels en neurosciences

Cas général : plusieurs machines à sous connectées

● On commence à un état initial (une machine à sous particulière)

● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous

● Les récompenses ainsi que les transitions peuvent être stochastiques

● Le nombre d’états et d’actions peut être infini

Question principale : Comment jouer pour maximiser la récompense obtenue ?

r

Page 43: Modèles mathématiques et computationnels en neurosciences

Ce problème général est appelé Processus de Décision Markovien(Markov Decision Process, MDP)

Cas général : plusieurs machines à sous connectées

r

● On commence à un état initial (une machine à sous particulière)

● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous (les récompenses et les transitions sont prédéfinies, mais inconnues du joueur)

● Les récompenses ainsi que les transitions peuvent être stochastiques

● Le nombre des états et des actions peut être infini

Page 44: Modèles mathématiques et computationnels en neurosciences

MDP : formalisation du problème1. Dans un état s, le joueur (appelé

l’agent) choisit une action a

2. L’action choisie entraîne une récompense r (avec la moyenne )

3. et la transition à l’état suivant s’

4. où l’agent choisit l’action suivante a’ , etc.

Répéter les étapes 1-4 jusqu’à la fin du jeu (l’agent atteint l’état terminal), ou indéfiniment.

r

s

a

s’

a’

r r

… …

La question principale devient : comment sélectionner les actions afin de maximiser la

récompense totale future ?

E(r | s,a)

Le joueur choisit les actions. Les transitions entre les états et les

récompenses sont fixés par l’environnement

Page 45: Modèles mathématiques et computationnels en neurosciences

Exemple : MDP pour la navigation spatiale

x1,y1

N E

r=0 r=0

fin

r=10

S

r=0

xi,yi

O

N

E

S

OS

Page 46: Modèles mathématiques et computationnels en neurosciences

Exemple : MDP pour le conditionnement opérant

début

levier attendre 2s

lumière bleu

attendre

levier

r=0 r=1

fin

lumière rouge

r=10nourriture

attendre

levier

r=-10choc électrique

r=0

r=0 Boîte de Skinner

Afin de trouver la stratégie optimale il ne suffit pas de trouver une action avec la récompense immédiate

maximale pour chaque état

Page 47: Modèles mathématiques et computationnels en neurosciences

• Récompense totale à partir du moment t où le “facteur de dévaluation” (discount factor) pour assurer que

• La fonction-valeur que l’agent cherche à estimer :

• L’action optimale (si Q(s,a) était connue) :

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...= γ krt+k+1

k=0

0 ≤ γ ≤1

Q(st ,at ) = E(Rt | st ,at )

a∗ = argmaxaQ(st ,a)

st

at

st+1

at+1

rt+1

… …

MDP : formalisation du problème

La question principale devient : Comment estimer la fonction valeur ?

rt+2

Rt < ∞

Page 48: Modèles mathématiques et computationnels en neurosciences

Processus de décision markovien

Markov decision process (MDP)

Description formelle d’une classe de problèmes de décision qui peuvent être décrits comme une chaîne des transitions entre des états selon les actions choisies. La performance de l’agent qui résout la tache est mesurée

par la récompense totale obtenue.

Apprentissage par renforcement est un algorithme qui permet de trouver la solution optimale d’un MDP en

utilisant l’erreur de prévision de récompense. Cette erreur correspond à l’activité de neurones

dopaminergiques.

Il existe d’autres algorithmes pour résoudre un MDP (programmation dynamique, méthode de Monte-Carlo,

etc), qui ne semblent pas être biologiquement plausibles

Page 49: Modèles mathématiques et computationnels en neurosciences

Fonction-valeur

quelques exemples de petits MDP

Page 50: Modèles mathématiques et computationnels en neurosciences

La fonction-valeur s

a1

r=1

fin

Exemple simple : un état, deux actions

a2

r=0 Quelle est l’action optimale dans l’état s ?

Quel comportement correspond à la stratégie glouton (greedy) ?

Quel comportement correspond à la stratégie ε-greedy ?

Q(s,a) = E(Rt | s,a)

Q(s,a1) = ?Q(s,a2 ) = ?

Page 51: Modèles mathématiques et computationnels en neurosciences

s

a1

r=1

fin

Exemple simple : un état, deux actions

a2

r=0 Quelle est l’action optimale dans l’état s ?

Quel comportement correspond à la stratégie glouton (greedy) ?

Quel comportement correspond à la stratégie ε-greedy ?

Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0

a∗ = argmaxaQ(s,a) ⇒ a∗ = a1

La fonction-valeur ?Q(s,a) = E(Rt | s,a)

Page 52: Modèles mathématiques et computationnels en neurosciences

Un autre exemple : navigation dans un couloir rectiligne

Quelle est la stratégie optimale ?

Aller → dans chaque état Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

état terminal

Page 53: Modèles mathématiques et computationnels en neurosciences

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

Un autre exemple : navigation dans un couloir rectiligne

Calculer Q(a,s) si l’on suit la stratégie optimale

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,→) = E(Rt | E,→) =Q(D,→) = E(Rt |D,→) =Q(C,→) = E(Rt |C,→) =Q(B,→) =Q(A,→) =

Page 54: Modèles mathématiques et computationnels en neurosciences

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

Un autre exemple : navigation dans un couloir rectiligne

Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) =Q(D,←) =Q(C,←) =Q(B,←) =Q(A,←) =

Calculer Q(a,s) si l’on suit la stratégie optimale

Page 55: Modèles mathématiques et computationnels en neurosciences

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

Un autre exemple : navigation dans un couloir rectiligne

Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(D,←) = γ 3

Q(C,←) = γ 4

Q(B,←) = γ 5

Q(A,←) = 0

Calculer Q(a,s) si l’on suit la stratégie optimale

Page 56: Modèles mathématiques et computationnels en neurosciences

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

Un autre exemple : navigation dans un couloir rectiligne

Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(D,←) = γ 3

Q(C,←) = γ 4

Q(B,←) = γ 5

Q(A,←) = 0

Sachant Q(s,a) on peut choisir toujours l’action

optimale …

Calculer Q(a,s) si l’on suit la stratégie optimale

Page 57: Modèles mathématiques et computationnels en neurosciences

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

Un autre exemple : navigation dans un couloir rectiligne

Si l’on suit la stratégie ε-glouton …

Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) =……

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Le calcul devient plus difficile, car on doit calculer l’espérance d’une variable aléatoire qui dépend de la valeur de ε et ɣ

Page 58: Modèles mathématiques et computationnels en neurosciences

Pour résoudre un MDP, il faut déterminer la fonction-valeur.

L’action optimale dans chaque état correspond à l’action qui suit le gradient de la

fonction-valeur.

Mais pour la plupart des cas cette fonction est difficile à calculer …

On cherche un algorithme itératif pour

effectuer une approximation de la fonction-valeur dans le cas d’un MDP général

Page 59: Modèles mathématiques et computationnels en neurosciences

Apprentissage de la fonction valeur pour un

MDP général

Page 60: Modèles mathématiques et computationnels en neurosciences

Q(s,a) = E(r | s,a)

ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦

a∗ = argmaxaQ(s,a)

Fonction-valeur

Apprentissage de la fonction-valeur

Action optimale

r r r

… …

Q(s,a) = E(Rt | s,a)Fonction-valeur

ΔQ(s,a) = ?

Apprentissage de la fonction-valeur

a∗ = argmaxaQ(s,a)

Action optimale

Machines à sous indépendantes

MDP général

Page 61: Modèles mathématiques et computationnels en neurosciences

Solution d’un MDP général

Q(s,a) = E(Rt | s,a)Q(s,a) = E(rt+1 + γ rt+2 + γ

2rt+3 + ... | s,a)Q(s,a) = E(rt+1 | s,a)+ γ E(rt+2 + γ rt+3 + ... | s ',a ')

Q(s,a) = E(rt+1 | s,a)+ γQ(s ',a ')

ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦

Algorithme SARSA

r

s

a

s’

a’

r r

… …

… Apprentissage de la fonction-valeur

Équation de Bellman pour la fonction-valeur

SARSA est un des algorithmes plus généralement connus comme algorithmes de “TD-learning” (apprentissage à la base de Différence Temporelle)

Page 62: Modèles mathématiques et computationnels en neurosciences

Q(s,a) = E(r | s,a)

ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦

a∗ = argmaxaQ(s,a)

Fonction-valeur

Apprentissage de la fonction-valeur

Action optimale

r r r

… …

Q(s,a) = E(r | s,a)+ γQ(s ',a ')Fonction-valeur

Apprentissage de la fonction-valeur

a∗ = argmaxaQ(s,a)

Action optimale

Machines à sous indépendantes

MDP général

ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦

Page 63: Modèles mathématiques et computationnels en neurosciences

Algorithme SARSA

• Initialiser toutes les valeurs

• Répéter (pour chaque épreuve) : - Mettre l’agent à l’état initial s - Choisir action a selon la stratégie ε-greedy - Répéter (jusqu’à la fin de l’épreuve) Exécuter a, obtenir r, observer s’ Choisir a’ selon la stratégie ε-greedy Mettre à jour l’estimation de la fonction-valeur :

Q(s,a) = 0

Q(s,a)←Q(s,a)+η r + γQ(s ',a ')−Q(s,a)[ ]ΔQ(s,a)

! "#### $####

a← a 's← s '

r

s

a

s’

a’

r r

… …

Page 64: Modèles mathématiques et computationnels en neurosciences

s

a1

r=1

fin

Solution d’un MDP : un état, deux actions

a2

r=0 • Mise à jour après chaque épreuve :

ΔQ(s,ak ) =η r + γ Q(s ',a ')=0

!"# $# −Qpréc (s,ak )⎡

⎣⎢⎢

⎦⎥⎥

• Initialisation de la fonction-valeur :

Q0 (s,a1) = 0Q0 (s,a2 ) = 0

On a vu que la vraie fonction-valeur est :

Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0

Car il n’y a pas de l’état s’

• L’état stable de l’algorithme :

ΔQ(s,a1) = 0 ⇒ Q(s,a1) = r

ΔQ(s,a0 ) = 0 ⇒ Q(s,a0 ) = 0

Page 65: Modèles mathématiques et computationnels en neurosciences

Navigation dans un couloir rectiligne

- exécute a, obtient r, observe s’

- choisit une nouvelle action a’ et met à jour l’estimation pour Q

ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦

• Initialisation de la fonction-valeur :

Q(s,a) = 0 pour tout s,a

• L’agent commence dans un état initial (arbitraire) et choisit une action a selon la stratégie ε-greedy

• Il répète jusqu’il arrive à l’état terminal :

• Répéter l’épreuve jusqu’à

Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

ΔQ(s,a) ≈ 0

Page 66: Modèles mathématiques et computationnels en neurosciences

Les réseaux de neurones ?

Page 67: Modèles mathématiques et computationnels en neurosciences

Navigation dans un couloir rectiligne

Comment apprendre la fonction valeur ?

… … 😊

!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état

Q(!s,an ) = wnixii=0

9

x0x1 x9

Fonction-valeur :

Action optimale : a∗ = argmaxaQ(!s,a)

wki

Signal de récompense

Q(!s,a1) Q(!s,a2 )

Page 68: Modèles mathématiques et computationnels en neurosciences

Navigation dans un couloir rectiligne

Comment apprendre la fonction valeur ?

Selon l’algorithme SARSAΔQ(!s,a) =η r + γQ(!s ',a ')−Q(!s,a)[ ]

Minimum de la fonction-erreur correspond à ΔQ(s,a) ≈ 0

On construit une fonction-erreur

E = 12

ΔQ(s,a)[ ]s,a∑

2

= E (s,a)

s,a∑

… … 😊

Q(!s,a1) Q(!s,a2 )

x0x1 x9

wki

Signal de récompense

!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état

Q(!s,an ) = wnixii=0

9

∑Fonction-valeur :

Action optimale : a∗ = argmaxaQ(!s,a)

Le but est d’obtenir ΔQ(!s,a) = 0

Page 69: Modèles mathématiques et computationnels en neurosciences

Navigation dans un couloir rectiligne

Minimisation de la fonction-erreur

E (s,a) ( !w) = 12r + γQ(s ',a ')−Q(s,a)[ ]2

Δwni = −η ∂E (s,a)

∂wni

Δwni =ηδ n∂Q(s,an )∂wni

=ηδ nxi

δ n = r + γQ(s ',a ')−Q(s,an )

Descent de gradient

Règle - delta

l’erreur-delta correspond aux activités de neurones dopaminergiques

… … 😊

x0x1 x9

wki

Signal de récompense

!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état

Q(!s,an ) = wnixii=0

9

∑Fonction-valeur :

Action optimale : a∗ = argmaxaQ(!s,a)

Q(!s,a1) Q(!s,a2 )

Page 70: Modèles mathématiques et computationnels en neurosciences

Réseau de neurones pour résoudre un MDP général

Q(s,an )

wki

Signal de récompense(dopamine)

xi!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état

Q(!s,an ) = wnixii=0

9

∑Fonction-valeur :

Action optimale : a∗ = argmaxaQ(!s,a)