Modèles mathématiques et computationnels en neurosciences

1

4I702 CM 9

[email protected]

Apprentissage par renforcement

Modèles mathématiques etcomputationnels en neurosciences

1

mailto:[email protected]

● Principe d’apprentissage supervisé :

● Principe d’apprentissage non-supervisé :

● Principe d’apprentissage par renforcement :

Apprentissage

Minimisation d’erreur

Corrélations dans les données

?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

0 ou 1 ?

Apprentissage● Principe d’apprentissage supervisé :

● Principe d’apprentissage non-supervisé :

● Principe d’apprentissage par renforcement :

Minimisation d’erreur

Corrélations dans les données

Maximisation de récompense

Apprentissage par renforcement au niveau comportemental

Conditionnement classique

Récompense

Stimulus

Pavlov, I. P. (1927). Conditioned reflexes. Oxford: Oxford University Press.

UCS - unconditioned stimulus UCR - unconditioned response CS - conditioned stimulus CR - conditioned response

Conditionnement opérant

Skinner, B. F. "The Behavior of Organisms: An Experimental Analysis", 1938 New York: Appleton-Century-Crofts

Stimulus

action action . . . action

Récompense (positive ou négative)

actionaction

Stimulus Stimulus Stimulus

☹

Boîte de Skinner

Navigation spatialeStimulus

action action . . . action

Récompense (positive ou négative)

actionaction

Stimulus Stimulus Stimulus

☹

Apprentissage par renforcement au niveau

neuronal

Apprentissage au niveau neuronal

• Neurones sont connectés par des synapses (chimiques ou électriques)

• Apprentissage correspond à des changements de l’efficacité synaptique - plasticité synaptique

EPSP • Avant l’apprentissage • Après l’apprentissage

Réponse à un PA


présynaptique

postsynaptique

plasticité synaptique

Apprentissage associatif (hebbien)


présynaptique

postsynaptique

Récompense





Comment la récompense est représentée dans le cerveau ?

La dopamine : analogue cellulaire de la récompense

Neuromodulateur dopamine :

● Signal neuronal de récompense et de motivation

● Emis par des neurones dopaminergiques dans SN et ATV

● Fortement impliqué dans le phénomène d’addiction. La plupart de drogues augment le niveau de dopamine dans le cerveau

Neurones dopaminergiques se trouvent dans ● SN - Substance Noire ● ATV - Aire Tegmentale Ventrale Schultz, W., Dayan, P., & Montague, P. R.

(1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.

présynaptique

postsynaptique

Récompense





neurones dopaminergiques

dopamine

présynaptique

postsynaptique





Étude expérimentale des neurones dopaminergiques

enregistrement de l’activité neuronale dans l’ATV


25

conditionnement opérant

Schultz, W., Apicella, P., & Ljungberg, T. (1993). Responses of monkey dopamine neurons to reward and conditioned stimuli during successive steps of learning a delayed response task. The Journal of Neuroscience, 13(3), 900–13.

CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense

temps

Avant apprentissage :le neurone est activé par l’arrivée de la récompense

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275, 1593–1599.


temps



Après l'apprentissage :le neurone est activé par le stimulus prédictif (CS)

CS - stimulus conditionné (stimulus associé avec la récompense) R - récompense

temps



Si, après l'apprentissage, la récompense est omise, l'activité du neurone décroît au moment attendu de la

récompense

CS - stimulus conditionné (stimulus qui est suivi par la récompense) R - récompense


L'activité d’un neurone dopaminergique signale l'erreur de prévision de la récompense, plutôt

que la récompense même

actDA = rreçu − rprévu


Théorie de l’apprentissage par renforcement

“Reinforcement learning: An introduction” Sutton & Barto, 1998

http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html

30

http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html

n-Armed Bandit Problem

(machine à sous avec n bras)

● On considère une machine à sous avec actions possibles

● action a entraîne une récompense aléatoire r avec la moyenne

● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)

● Proposez une stratégie …

a1,…,aN

E(r | a)

N


a1 aN…

r r

● On considère une machine à sous avec actions possibles

● action a entraîne une récompense aléatoire r avec la moyenne

● l’objectif du jeu : maximiser la récompense totale obtenue (sur un grand nombre d’épreuves)

● Proposez une stratégie …

a1,…,aN

E(r | a)

N


• Tester chaque bras plusieurs fois afin de déterminer le bras a* avec la récompense moyenne maximale

• Toujours choisir le bras a*

a1 aN…

r r

n-Armed Bandit ProblemEn langage mathématique :

● Définir valeur d’une action Q(a) (inconnue) comme la vraie récompense moyenne correspondant à l’action a

● Comme la valeur est inconnue, on effectue une estimation après K épreuves

● Quand les valeurs de toutes les actions sont apprises, la stratégie optimale est de choisir l’action optimale :

Q(a) ≡ E(r | a)

QK (a) = r =r1(a)+ r2 (a)+…rK (a)

KSous cette forme le calcul de

l’estimation de Q(a) n’est pas très pratique, car il faut toujours

garder en mémoire toutes les récompenses précédentes …

a1 aN…

r r

a∗ = argmaxaQ(a)

“Reinforcement learning: An introduction”, Sutton & Barto, 1998, Chapter 2.1, 2.2, 2.5, 2.6

● On réécrit la formule sous forme suivante:


QK (a) =1K

ri (a)i=1

K

∑ ⇒ QK+1 =QK +1

K +1rK+1 −QK( )

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦

● La mise à jour de l’estimation à chaque pas:

QK+1 =QK + ΔQ, ΔQ = 1K +1

rK+1 −QK( )

● L’apprentissage s’arrête quand :

ΔQ(a) ≈ 0

taux d’apprentissage erreur de prévision

a1 aN…

r r

On garde en mémoire seulement l’estimation

précédente● Après l’apprentissage la meilleure action

a∗ = argmaxaQ(a)

n-Armed Bandit Problem… mais comment choisir les actions au début d’apprentissage quand nos estimations de Q(a) pour différentes actions ne sont pas précises ?

● Une solution possible : exploration - choix aléatoire des actions - pas efficace car n’exploite pas des bonnes actions

● Une autre solution : exploitation - toujours choisir l’action optimale a* - pas efficace, car n’explore pas d’autres actions (possiblement avec une valeur plus grande)“greedy policy” ou “stratégie glouton”

● Solution compromise : avec une petite probabilité ε choisir une action aléatoire, sinon choisir l’action optimale a*“ε - greedy policy” ou “stratégie ε - glouton”

Compromis exploration-exploitation :

une propriété de tous les algorithmes d’apprentissage par

renforcement

a1 aN…

r r

n-Armed Bandit Problem : lien avec l’activité de neurones dopaminergiques

● Apprentissage de la fonction-valeur

ΔQ(a) =η r −Qpréc (a)⎡⎣ ⎤⎦…r r



Hypothèse : les activités de neurones dopaminergiques

représentent la mise à jour de la fonction valeur

actDA = rreçu − rprévu● Activités de neurones dans VTA


…r r




actDA = rreçu − rprévu● Activités de neurones dans VTA


La théorie d’apprentissage par renforcement est la théorie actuelle

de l’apprentissage basé sur la récompense dans le cerveau

…r r

Hypothèse : les activités de neurones dopaminergiques

représentent la mise à jour de la fonction valeur


Plusieurs machines à sous.

Processus de décision markovien

Plusieurs machines à sous indépendantes● On considère le même jeu qu’avant, mais avec

plusieurs machines à sous différentes. Une machine particulière définit un “état” (“state”) s. À chaque épreuve, une machine (un état) est choisie au hasard avec ses N actions possibles. Le but est toujours de maximiser la récompense totale

● La récompense obtenu dépend donc de l’état actuel et de l’action choisie. La valeur d’une action a dans un état s, ou la fonction-valeur, est définie par :

● L’estimation de la fonction-valeur se fait par

● On utilise la stratégie ε-glouton et l’action optimale

s=“rouge”

s=“bleu”

s=“vert”

Q(s,a) = E(r | s,a)

ΔQ(s,a) =η r −Qpréc (s,a)⎡⎣ ⎤⎦

a∗ = argmaxaQ(s,a)

…r r

…r r

…r r La même chose qu’une seule machine à sous, sauf

que la valeur est une fonction de 2 variables

Cas général : plusieurs machines à sous connectées

● On commence à un état initial (une machine à sous particulière)

● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous

● Les récompenses ainsi que les transitions peuvent être stochastiques

● Le nombre d’états et d’actions peut être infini

Question principale : Comment jouer pour maximiser la récompense obtenue ?

r

Ce problème général est appelé Processus de Décision Markovien(Markov Decision Process, MDP)

Cas général : plusieurs machines à sous connectées

r

● On commence à un état initial (une machine à sous particulière)

● Chaque action résulte à une récompense, suivie par la transition à une autre machine à sous (les récompenses et les transitions sont prédéfinies, mais inconnues du joueur)

● Les récompenses ainsi que les transitions peuvent être stochastiques

● Le nombre des états et des actions peut être infini

MDP : formalisation du problème1. Dans un état s, le joueur (appelé

l’agent) choisit une action a

2. L’action choisie entraîne une récompense r (avec la moyenne )

3. et la transition à l’état suivant s’

4. où l’agent choisit l’action suivante a’ , etc.

Répéter les étapes 1-4 jusqu’à la fin du jeu (l’agent atteint l’état terminal), ou indéfiniment.

r

s

a

s’

a’

r r

… …

…

La question principale devient : comment sélectionner les actions afin de maximiser la

récompense totale future ?

E(r | s,a)

Le joueur choisit les actions. Les transitions entre les états et les

récompenses sont fixés par l’environnement

Exemple : MDP pour la navigation spatiale

x1,y1

N E

r=0 r=0

fin

r=10

S

r=0

…

xi,yi

O

N

E

S

OS

…

Exemple : MDP pour le conditionnement opérant

début

levier attendre 2s

lumière bleu

attendre

levier

r=0 r=1

fin

lumière rouge

r=10nourriture

attendre

levier

r=-10choc électrique

r=0

r=0 Boîte de Skinner

Afin de trouver la stratégie optimale il ne suffit pas de trouver une action avec la récompense immédiate

maximale pour chaque état

• Récompense totale à partir du moment t où le “facteur de dévaluation” (discount factor) pour assurer que

• La fonction-valeur que l’agent cherche à estimer :

• L’action optimale (si Q(s,a) était connue) :

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...= γ krt+k+1

k=0

∞

∑

0 ≤ γ ≤1

Q(st ,at ) = E(Rt | st ,at )

a∗ = argmaxaQ(st ,a)

st

at

st+1

at+1

rt+1

… …

…

MDP : formalisation du problème

La question principale devient : Comment estimer la fonction valeur ?

rt+2

Rt < ∞

Processus de décision markovien

Markov decision process (MDP)

Description formelle d’une classe de problèmes de décision qui peuvent être décrits comme une chaîne des transitions entre des états selon les actions choisies. La performance de l’agent qui résout la tache est mesurée

par la récompense totale obtenue.

Apprentissage par renforcement est un algorithme qui permet de trouver la solution optimale d’un MDP en

utilisant l’erreur de prévision de récompense. Cette erreur correspond à l’activité de neurones

dopaminergiques.

Il existe d’autres algorithmes pour résoudre un MDP (programmation dynamique, méthode de Monte-Carlo,

etc), qui ne semblent pas être biologiquement plausibles

Fonction-valeur

quelques exemples de petits MDP

La fonction-valeur s

a1

r=1

fin

Exemple simple : un état, deux actions

a2

r=0 Quelle est l’action optimale dans l’état s ?

Quel comportement correspond à la stratégie glouton (greedy) ?

Quel comportement correspond à la stratégie ε-greedy ?

Q(s,a) = E(Rt | s,a)

Q(s,a1) = ?Q(s,a2 ) = ?

s

a1

r=1

fin

Exemple simple : un état, deux actions

a2

r=0 Quelle est l’action optimale dans l’état s ?

Quel comportement correspond à la stratégie glouton (greedy) ?

Quel comportement correspond à la stratégie ε-greedy ?

Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0

a∗ = argmaxaQ(s,a) ⇒ a∗ = a1

La fonction-valeur ?Q(s,a) = E(Rt | s,a)

Un autre exemple : navigation dans un couloir rectiligne

Quelle est la stratégie optimale ?

Aller → dans chaque état Actions: ←, →

Etats : A,B,C,D,E

Récompense: 1 à la sortie à droite, 0 sinon

état terminal

Actions: ←, →

Etats : A,B,C,D,E



Calculer Q(a,s) si l’on suit la stratégie optimale

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,→) = E(Rt | E,→) =Q(D,→) = E(Rt |D,→) =Q(C,→) = E(Rt |C,→) =Q(B,→) =Q(A,→) =

Actions: ←, →

Etats : A,B,C,D,E



Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) = 0 + γ ⋅1= γQ(C,→) = E(Rt |C,→) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) =Q(D,←) =Q(C,←) =Q(B,←) =Q(A,←) =


Actions: ←, →

Etats : A,B,C,D,E




Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(D,←) = γ 3

Q(C,←) = γ 4

Q(B,←) = γ 5

Q(A,←) = 0


Actions: ←, →

Etats : A,B,C,D,E




Q(B,→) = γ 3

Q(A,→) = γ 4

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Q(E,←) = 0 + γ ⋅0 + γ 2 ⋅1= γ 2

Q(D,←) = γ 3

Q(C,←) = γ 4

Q(B,←) = γ 5

Q(A,←) = 0

Sachant Q(s,a) on peut choisir toujours l’action

optimale …


Actions: ←, →

Etats : A,B,C,D,E



Si l’on suit la stratégie ε-glouton …

Q(E,→) = E(Rt | E,→) = 1Q(D,→) = E(Rt |D,→) =……

Rt = rt+1 + γ rt+2 + γ2rt+3 + ...

Le calcul devient plus difficile, car on doit calculer l’espérance d’une variable aléatoire qui dépend de la valeur de ε et ɣ

Pour résoudre un MDP, il faut déterminer la fonction-valeur.

L’action optimale dans chaque état correspond à l’action qui suit le gradient de la

fonction-valeur.

Mais pour la plupart des cas cette fonction est difficile à calculer …

On cherche un algorithme itératif pour

effectuer une approximation de la fonction-valeur dans le cas d’un MDP général

Apprentissage de la fonction valeur pour un

MDP général

Q(s,a) = E(r | s,a)



Fonction-valeur

Apprentissage de la fonction-valeur

Action optimale

r r r

… …

…

Q(s,a) = E(Rt | s,a)Fonction-valeur

ΔQ(s,a) = ?



Action optimale

Machines à sous indépendantes

MDP général

Solution d’un MDP général

Q(s,a) = E(Rt | s,a)Q(s,a) = E(rt+1 + γ rt+2 + γ

2rt+3 + ... | s,a)Q(s,a) = E(rt+1 | s,a)+ γ E(rt+2 + γ rt+3 + ... | s ',a ')

Q(s,a) = E(rt+1 | s,a)+ γQ(s ',a ')

ΔQ(s,a) =η r + γQ(s ',a ')−Qpréc (s,a)⎡⎣ ⎤⎦

Algorithme SARSA

r

s

a

s’

a’

r r

… …

… Apprentissage de la fonction-valeur

Équation de Bellman pour la fonction-valeur

SARSA est un des algorithmes plus généralement connus comme algorithmes de “TD-learning” (apprentissage à la base de Différence Temporelle)

Q(s,a) = E(r | s,a)



Fonction-valeur


Action optimale

r r r

… …

…

Q(s,a) = E(r | s,a)+ γQ(s ',a ')Fonction-valeur



Action optimale

Machines à sous indépendantes

MDP général


Algorithme SARSA

• Initialiser toutes les valeurs

• Répéter (pour chaque épreuve) : - Mettre l’agent à l’état initial s - Choisir action a selon la stratégie ε-greedy - Répéter (jusqu’à la fin de l’épreuve) Exécuter a, obtenir r, observer s’ Choisir a’ selon la stratégie ε-greedy Mettre à jour l’estimation de la fonction-valeur :

Q(s,a) = 0

Q(s,a)←Q(s,a)+η r + γQ(s ',a ')−Q(s,a)[ ]ΔQ(s,a)

! "#### $####

a← a 's← s '

r

s

a

s’

a’

r r

… …

…

s

a1

r=1

fin

Solution d’un MDP : un état, deux actions

a2

r=0 • Mise à jour après chaque épreuve :

ΔQ(s,ak ) =η r + γ Q(s ',a ')=0

!"# $# −Qpréc (s,ak )⎡

⎣⎢⎢

⎤

⎦⎥⎥

• Initialisation de la fonction-valeur :

Q0 (s,a1) = 0Q0 (s,a2 ) = 0

On a vu que la vraie fonction-valeur est :

Q(s,a1) = E(r | s,a1) = 1Q(s,a2 ) = E(r | s,a2 ) = 0

Car il n’y a pas de l’état s’

• L’état stable de l’algorithme :

ΔQ(s,a1) = 0 ⇒ Q(s,a1) = r

ΔQ(s,a0 ) = 0 ⇒ Q(s,a0 ) = 0

Navigation dans un couloir rectiligne

- exécute a, obtient r, observe s’

- choisit une nouvelle action a’ et met à jour l’estimation pour Q


• Initialisation de la fonction-valeur :

Q(s,a) = 0 pour tout s,a

• L’agent commence dans un état initial (arbitraire) et choisit une action a selon la stratégie ε-greedy

• Il répète jusqu’il arrive à l’état terminal :

• Répéter l’épreuve jusqu’à

Actions: ←, →

Etats : A,B,C,D,E


ΔQ(s,a) ≈ 0

Les réseaux de neurones ?


Comment apprendre la fonction valeur ?

…

… … 😊

!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état

Q(!s,an ) = wnixii=0

9

∑

x0x1 x9

Fonction-valeur :

Action optimale : a∗ = argmaxaQ(!s,a)

wki

Signal de récompense

Q(!s,a1) Q(!s,a2 )


Comment apprendre la fonction valeur ?

Selon l’algorithme SARSAΔQ(!s,a) =η r + γQ(!s ',a ')−Q(!s,a)[ ]

Minimum de la fonction-erreur correspond à ΔQ(s,a) ≈ 0

On construit une fonction-erreur

E = 12

ΔQ(s,a)[ ]s,a∑

2

= E (s,a)

s,a∑

…

… … 😊

Q(!s,a1) Q(!s,a2 )

x0x1 x9

wki


!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état


9

∑Fonction-valeur :


Le but est d’obtenir ΔQ(!s,a) = 0


Minimisation de la fonction-erreur

E (s,a) ( !w) = 12r + γQ(s ',a ')−Q(s,a)[ ]2

Δwni = −η ∂E (s,a)

∂wni

Δwni =ηδ n∂Q(s,an )∂wni

=ηδ nxi

δ n = r + γQ(s ',a ')−Q(s,an )

Descent de gradient

Règle - delta

l’erreur-delta correspond aux activités de neurones dopaminergiques

…

… … 😊

x0x1 x9

wki


!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état


9



Q(!s,a1) Q(!s,a2 )

Réseau de neurones pour résoudre un MDP général

…

Q(s,an )

wki

Signal de récompense(dopamine)

xi!s = (x0 , x1…x9 ), xi ∈ 0,1{ }L’état


9



Documents

Modèles mathématiques et computationnels en neurosciences