Projektgruppe KIMAS – Reinforcement Learning in MAS 1/21
UNIVERSITY OF
PADERBORN
Projektgruppe KIMAS
Reinforcement Learning in MAS
10.09.2003
Marc Pannenberg
Projektgruppe KIMAS – Reinforcement Learning in MAS 2/21
UNIVERSITY OF
PADERBORNÜbersicht – Teil 1
Einführung in Reinforcement Learning (RL)• Konzept• Einfaches RL-Modell• Reinforcement Learning Systeme• Der Markov-Entscheidungs-Prozess• Formale Definition• Das RL – Problem• Value Functions• Beispiel: Gridworld
Projektgruppe KIMAS – Reinforcement Learning in MAS 3/21
UNIVERSITY OF
PADERBORNÜbersicht – Teil 2
Einführung in Reinforcement Learning • Grundlegende Strategien in RL
• Dynamic Programming• Monte Carlo• Temporal Difference
Reinforcement Learning in Multi Agenten Systemen• Besondere Problematik von RL in MAS• Beispiel Hunter – Prey Gridworld• RL in MAS für PG-KIMAS
Projektgruppe KIMAS – Reinforcement Learning in MAS 4/21
UNIVERSITY OF
PADERBORNKonzept
Ein Agent in einem RL System:
• Hat meist nur unvollständiges Wissen über seine Umwelt
• Agiert auf Grundlage von Trial-and-Error• Bekommt keine Hilfestellung von außen• Wird belohnt für Aktionen, die ihn einem Ziel
näher (bzw. ans Ziel) bringen• Bekommt Belohnungen oft erst verzögertZiel:
Belohnungen zu nutzen, um die Aktionen des Agenten so zu beeinflussen, daß die Summe der Belohnungen maximiert wird
Projektgruppe KIMAS – Reinforcement Learning in MAS 5/21
UNIVERSITY OF
PADERBORN
Einfaches Modell eines RL-Systems
Der Agent sieht den Zustand s der Umgebung als Wahrnehmung o und wählt eine Aktion a.
Als Ergebnis ändert sich der Zustand der Umgebung, und der Agent bekommt eine neue Wahrnehmung sowie eine Belohnung r.
Auch innere Zustände des Agenten gehören hier zur Umwelt!
Environm
ent
Agent
R O
r o
s
a
Policy
Projektgruppe KIMAS – Reinforcement Learning in MAS 6/21
UNIVERSITY OF
PADERBORN
Markov Eigenschaft & Markov Entscheidungsprozess (MDP)
Markov Eigenschaft :
Alle Information ist im Zustand enthalten. Vergangenheit ist unerheblich.
(z.B. Dame- oder Schachspiel)
Formal:
1 1 1 0 0 1 1Pr ', | , , ,..., , , Pr ', | , |t t t t t t t t ts s r r s a r r s a s s r r s a
Projektgruppe KIMAS – Reinforcement Learning in MAS 7/21
UNIVERSITY OF
PADERBORNFormale Definition
Das MDP ist ein Quadrupel:
Aktionen = Transitionen action a
)',,( sas0.3
0.7
, , ,
= eine endliche Zustandsmenge
= eine Menge von Aktionen
= eine Belohnungsfunktion mit :
= eine Wahrsscheinlichkeitsfunktion mit : 0,1
S A R
S
A
R R S A
S A S
R
Projektgruppe KIMAS – Reinforcement Learning in MAS 8/21
UNIVERSITY OF
PADERBORN
Das Reinforcement Learning ProblemWie lernt der Agent?
Erforschen unbekannter Zustände und Aktionen Bewertung von Zuständen (Value Function) Erarbeitung eines Planes (Policy) basierend auf vergangenen Bewertungen Verbesserung der Policy Der Agent soll bekannte, gute Policies verfolgen
Konflikt: Exploitation vs. Exploration
Projektgruppe KIMAS – Reinforcement Learning in MAS 9/21
UNIVERSITY OF
PADERBORNValue Functions
Formeln von Sutton & Barto Ch. 3.7
Action Value Function Q
s,a
r
a`
s`
a
s
r
s`
State Value Function V
10
( ) | |kt t t k t
k
V s E R s s E r s s
10
( , ) | , | ,kt t t t k t t
k
Q s a E R s s a a E r s s a a
Der Wert des Zustandes s, wenn von dort aus policy benutzt wird.
Der Wert Aktion a in Zustand s zu wählen, wenn von dort aus policy benutzt wird.
Projektgruppe KIMAS – Reinforcement Learning in MAS 10/21
UNIVERSITY OF
PADERBORNPolicy Beispiel: Gridworld
Wahrscheinlichkeit der Transitionen ist z.B.:
Belohnung ist –1 bis Endzustand erreicht ist Dynamik des Systems ist vollständig
bekannt
1 2 3
4 5 6 7
8 9 10 11
12 13 14
Aktionen
r = -1 für alle Transitionen
Formal nurein Endzustand
5,6 4,1 2,21, 0, 1.right left upP P P
Projektgruppe KIMAS – Reinforcement Learning in MAS 11/21
UNIVERSITY OF
PADERBORNPolicy Beispiel: Gridworld
Update von Vk nach:
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
Vk für Zufalls-policy
0.0 -6.1 -8.4 -9.0
-6.1 -7.7 -8.4 -8.4
-8.4 -8.4 -7.7 -6.1
-9.0 -8.4 -6.1 0.0
0.0 -1.7 -2.0 -2.0
-1.7 -2.0 -2.0 -2.0
-2.0 -2.0 -2.0 -1.7
-2.0 -2.0 -1.7 0.0
0.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 -1.0
-1.0 -1.0 -1.0 0.0
0.0 -2.4 -2.9 -3.0
-2.4 -2.9 -3.0 -2.9
-2.9 -3.0 -2.9 -2.4
-3.0 -2.9 -2.4 0.0
k = 0 k = 10k = 3k = 2k = 1
Greedy Policy abgel. von Vk
Zufällig OptimalBeispiel von Sutton & Barto Ch. 4.1 (siehe auch für vollständigen Algorithmus)
1 ' ''( ) max ( ')a a
k ss sssaV s P R V s (Bellmann Gleichung)
Projektgruppe KIMAS – Reinforcement Learning in MAS 12/21
UNIVERSITY OF
PADERBORN
Grundlegende Strategien:Dynamic Programming
Value Iteration und Policy Iteration• Sweeps durch den Zustandsraum• Bei jeder Iteration wird die Schätzung verbessert• Wert eines Zustands basiert auf dem geschätzten Wert
des Folgezustandes
DP-Algorithmen wandeln die Bellmann Gleichung in eine Update-Gleichung um
Problem: Benötigt komplettes Modell der Umgebung
• Sehr rechenaufwendig
Projektgruppe KIMAS – Reinforcement Learning in MAS 13/21
UNIVERSITY OF
PADERBORN
Grundlegende Strategien:Monte Carlo Methode
Benötigt kein Modell Value Function und Policy werden Schritt für
Schritt entwickelt Optimale Lösung durch Errechnung des
Durchschnitts von Versuchen Berechnung des Wertes eines Zustands basiert
nicht auf geschätztem Wert des Folgezustandes Warten auf vollständige Episode nötig
Projektgruppe KIMAS – Reinforcement Learning in MAS 14/21
UNIVERSITY OF
PADERBORN
Grundlegende Strategien:Monte Carlo Methode
Nach jeder Episode mit Policy i :
Für jedes (s,a) berechne mit Ri´(s,a) die Belohnung ausgehend von s bis zum Ende der Episode
Q(s,a) = average ( Ri´(s,a)) über alle bisher berechneten Ri
i ist -Greedy policy für Q(s,a)
Probleme: Durchschnitte von mehreren policies Konvergiert der Algorithmus immer?
Projektgruppe KIMAS – Reinforcement Learning in MAS 15/21
UNIVERSITY OF
PADERBORN
Grundlegende Strategien:Temporal Difference
Vereinigt Elemente von Dynamic Programming und Monte Carlo
Benötigt kein Modell Value-Schätzung aufgrund anderer geschätzter
Werte Kein Warten auf Abschluß einer Episode nötig
Vorgehen:Action Value Function online lernen:
1 1 1( , ) ( , ) ( , ) ( , )t t t t t t t t tQ s a Q s a r Q s a Q s a
t+1 ta ε - greedy Policy für Q
Projektgruppe KIMAS – Reinforcement Learning in MAS 16/21
UNIVERSITY OF
PADERBORN
Reinforcement Learning in Multi Agenten Systemen
Besondere Problematik:
• Erschwerte Vorhersagbarkeit• (Viel) Größerer Zustandsraum• Kommunikation zwischen Agenten
Projektgruppe KIMAS – Reinforcement Learning in MAS 17/21
UNIVERSITY OF
PADERBORN
Erschwerte Vorhersagbarkeit und größerer Zustandsraum
Kollaborative Agenten teilen Belohnung Zustandsraum muß (z.T.) Zustände
anderer Agenten mit einschließen
1
1 2
MAS-MDP = ( , , , ) mit:
= Menge der Zustände
= Menge möglicher Aktionen mit = bei Agenten
= Belohnungsfunktion mit : ...
= Transitionsfunktion mit : 0,1
n
ii
n
S A R
S
A A A n
R R S A A A
S A S
R
Projektgruppe KIMAS – Reinforcement Learning in MAS 18/21
UNIVERSITY OF
PADERBORN
Beispiel: Hunter – Prey Gridworld
Prey
Hunter
Aktion
Sichtbereich = Zustand
Beispiel von Tan (1993)
x
1
2
a
b
y
Ziel: Hunter fängt Prey
Zustand: h2 = (-2,2)
Projektgruppe KIMAS – Reinforcement Learning in MAS 19/21
UNIVERSITY OF
PADERBORN
Beispiel: Hunter – Prey Gridworld
x
1
2a
b
y
Möglichkeiten des Zusammenspiels:
• Hunter ignorieren einander• Hunter teilen Sichtbereich• Hunter kommunizieren Episoden oder Policies• Hunter nutzen dieselbe Policy
Vergleich siehe Tan (1993)
Sichtweite Training Test
Unabhängige HunterGemeinsame Sicht
22
20.3825.20
24.0424.52
Unabhängige HunterGemeinsame Sicht
33
14.6514.02
16.0412.98
Unabhängige HunterGemeinsame Sicht
44
12.2111.05
11.538.83
Projektgruppe KIMAS – Reinforcement Learning in MAS 20/21
UNIVERSITY OF
PADERBORNRL-MAS für PG-KIMAS
Schwer zu realisieren für Capture-the-Flag Vorstellbar für rein kollaborative Systeme
Komplexe RL – MAS Systeme noch wenig untersucht und dokumentiert
Projektgruppe KIMAS – Reinforcement Learning in MAS 21/21
UNIVERSITY OF
PADERBORNReferenzen
Sutton, R. & Barto, A. – Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning), MIT Press (1998)
Tan, M. (1993) - Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents, Readings in Agents, Morgan Kaufmann (1997)
Şenkul Selçuk - Multi-Agent Reinforcement Learning, Thesis (1998) Mansour, Y. - Machine Learning: Foundations Reinforcement
Learning, Tel Aviv University, Lecture Notes (1999)