Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
W. Bradley Knox und Peter Stone
Combining Manual Feedback withSubsequent MDP Reward Signals forReinforcement Learning
14.12.2012 | Informatik FB 20| Knowlegde Engineering| Yasmin Krahofer | 1
Inhalt
• Problemstellung
• MDP
• TAMER
• Kombinationsmethoden
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 2
• Experimente
• Ergebnisse
• Fazit
• Quellen
Problemstellung
• Lernende Agenten gehen mehr und mehr von der
Forschung ins reale Leben über
Probleme:
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 3
1. Nicht alle Endbenutzer haben Fachkenntnisse
2. Manche Trainingsdaten sind kostspielig, erbringen aber
keine gute Leistung
Nicht alle Endbenutzer haben Fachkenntnisse
• In realer Welt kann nicht jeder Mensch programmieren
• Soll dennoch in der Lage sein, einem Agenten ein
gewünschtes Verhalten beizubringen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 4
Kostspielige Trainingsdaten mit geringer Leistung
• Sie sollen reduziert werden
• Wenn möglich komplett weglassen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 5
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 6
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 7
Markov Decision Prozess
• MDP – Wofür ?
• MDP – Funktionsweise
• MDP Reward
• Eigenschaften des MDP
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 8
MDP – Wofür ?
• Wahrscheinlichkeitsberechnung
• Schlägt nächsten Zustand vor
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 9
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 10
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 11
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
3. Eine Aktion a wird gewählt
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 12
3. Eine Aktion a wird gewählt
MDP – Funktionsweise
1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
3. Eine Aktion a wird gewählt
s
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 13
3. Eine Aktion a wird gewählt
4. Nachfolgende Zeitpunkt bewegt
sich Prozess in Zustand s‘ und
liefert den dazugehörigen
Rewards‘‘s‘ s‘‘‘
MDP Reward
• Als Signal genutzt
• Drückt Belohnung, von Zustand s in Zustand s‘, zu
gelangen aus
• Fehlerlos
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 14
• Informationsarm
• z.T. Verzögert
Eigenschaften des MDP
• s‘ abhängig von aktuellem Zustand s und Aktion a
• Unabhängig von davor gewählten Aktionen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 15
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 16
TAMER
• Was ist TAMER ?
• Wie funktioniert TAMER ?
• Bisherige Ergebnisse von TAMER
• Schlussfolgerungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 17
Was ist TAMER ?
• Teaching Agents Manually via Evaluative Reinforcement
• Framework
• Agenten können interaktiv geformt werden
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 18
Wie funktioniert TAMER ?
• Menschlicher Trainer gibt positives oder negatives
Feedback Signal
• An Hand der Signale wird Human Reinforcement Function
Ĥ erstellt
• TAMER wählt Aktion auf Grund von Ĥ
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 19
• TAMER wählt Aktion auf Grund von Ĥ
Bisherige Beobachtungen von TAMER
• Sample Komplexität wird reduziert � Gewährleistung einer
guten Policy
• Laien können Agenten zu gewünschtem Verhalten
trainieren
• Agenten lernen in einem MDP ohne Reward Function
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 20
• Agenten lernen in einem MDP ohne Reward Function
Überlegungen
• Human Reinforcement Signal: informationsreich und
fehleranfällig
• MDP Reward: informationsarm und fehlerlos
�Kombination des Human Reinforcement Signals und des
MDP Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 21
MDP Reward
Problem bei der Umsetzung
Kombination von Reinforcement Algorithmen mit TAMER
� TAMER ist mit Reward Function nicht kompatibel !
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 22
Kombinationsmethoden
Ziel:
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 23
Kombinationsmethoden
• SARSA(λ) als Reinforcement Learning Algorithmus
• Q Function wird erstellt
• Q Function wird aktualisiert
• Q Function betrachtet zuvorgegangen Wege
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 24
(Aktionssequenzen)
Kombinationsmethoden
• Aktion a
• Zustand s
• Ĥ(s,a)
• R(s,a)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 25
• Q(s,a)
• Parameter
• weight – wird dekrementiert
• constant – bleibt konstant
Methode 1
R‘(s,a) = R(s,a) + (weight * Ĥ(s,a))
• Reward Signal wird durch die Summe von sich und einem
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 26
Anteil der Human Reinforcement Function ersetzt
• Anteil der Reinforcement Function nimmt ab � somit auch
ihr Einfluss
� Vorhersage des Menschen wird mit der Zeit
unbedeutender
Methode 2
f‘ = f.append(Ĥ(s,a))
• Annahme, dass die Q Function über einen Feature Vector
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 27
erlernt wird
• Fügt zu sich selbst zusätzlich noch die Information der
Human Reinforcement Function hinzu
• Information kann vom Reinforcement Learning
Algorithmus, je nach Bedarf, mehr oder weniger genutzt
werden
Methode 3
Q(s,a) � (constant * Ĥ(s,a))
• Q Function so trainieren, dass sie sich an einen Anteil von
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 28
Ĥ(s,a) annähert
• Q wird mit 0 initialisiert
• Ĥ wird als Q Function behandelt
Methode 4
Q‘ (s,a) = Q(s,a) + constant * Ĥ(s,a)
• Ähnlich wie Methode 1
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 29
• Statt MDP Reward wird Q Function benutzt
• Ĥ(s,a) nimmt nicht ab
Methode 5
A‘ = A ᴜ argmaxa[Ĥ(s,a)]
• Fügt zu der Menge der möglichen Aktionen die Aktion
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 30
hinzu, welche der TAMER Agent wählen würde
• Mindestens zwei optimale Aktionen stehen zur Verfügung
Methode 6
a = argmaxa[Q(s,a) + weight * Ĥ(s,a)]
• Ein Anteil der Human Reinforcement Function Ĥ wird zur
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 31
Q Function während der Aktionsauswahl hinzugefügt
• Der Anteil der Human Reinforcement Function Ĥ nimmt mit
der Zeit ab
Methode 7
P (a = argmaxa [Ĥ(s,a)]) = p
• p ist eine fixe Wahrscheinlichkeit
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 32
• Entweder wählt Reinforcement Learning Algorithmus die nächste
Aktion aus oder
• TAMER Agent wählt die nächste Aktion aus, während der
Reinforcement Learning Algorithmus überwacht und aktualisiert
• Anfangs wird die Aktion von Ĥ gewählt
• Gegen Ende vom RL-Algorithmus
Methode 8
R‘(st ,a) = R(s,a) + constant * (Ф(st) – Ф(st-1))
Ф(s) = maxaH(s,a)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 33
• H wird über Potentialfunktion Ф genutzt
• Potentialfunktion Ф gibt an, welches die optimale Aktion a
im Zustand s ist
• Aktueller Zustand und Zustand aus Zeitschritt davor wird
betrachtet
• Je größer die Abweichung desto größer der Einfluss
Experimente - Randbedingungen
• SARSA(λ) als Reinforcement Algorithmus
• Mountain Car Umgebung
• Zwei Human Reinforcement Functions
• Ĥ1 : durchschnittliche Funktion
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 34
• Ĥ2 : beste Funktion
• Zwei Parameter Sets
• Optimistisch: Initialisierung von Q = 0
• Pessimistisch: Initialisierung von Q = -120
• constant und weight
• Auswahl der besten Parameter
Erfolgskriterien
1. Höheres Level der Endperformanz der
Kombinationstechnik ist größer als RL Algorithmus oder
TAMER alleine
2. MDP Reward ist nach mehreren Lernepisoden (> 500)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 35
2. MDP Reward ist nach mehreren Lernepisoden (> 500)
größer als RL Algorithmus oder TAMER alleine
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 36
Nur mit Q=0
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 37
Nur mit Q=0
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 38
Methode 2, 5
Nur mit Q=0
Schlechtesten Ergebnisse
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 39
Methode 2, 5
Methode 8
Nur mit Q=0
Schlechtesten Ergebnisse
Etwas verbessert
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 40
Methode 2, 5
Methode 8
Methode 3,4,6,7
Nur mit Q=0
Schlechtesten Ergebnisse
Etwas verbessert Besten Ergebnisse
2. Höherer Reward
Methode 1,6,7
Verbesserungen mit beiden Initialisierungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 41
2. Höherer Reward
Methode 1,6,7
Methode
Verbesserungen mit beiden Initialisierungen
Verbessert sich
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 42
Methode 4auch etwas
2. Höherer Reward
Methode 1,6,7
Methode
Methode 3
Verbesserungen mit beiden Initialisierungen
Verbessert sich
Verschlechterungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 43
Methode 4
Methode 8
Methode 2
Methode 5
auch etwas
•Nicht unbedingt besser als SARSA(λ)•Geringe Verbesserung unter einer der beiden H Funktionen•Schlechter als SARSA(λ) alleine
Beste Methode
Methode 1,6,7
Methode 3,4,6,7
Höhere Endperformanz Höherer Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 44
Beste Methode
Methode 1,6,7
Methode 3,4,6,7
Höhere Endperformanz Höherer Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 45
Methode 6
Fazit
Zwei erkennbare Muster
1. Wird die Q Funktion am Anfang manipuliert, führt das zu
einer schlechteren Performanz
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 46
Fazit
Zwei erkennbare Muster
1. Wird die Q Funktion am Anfang manipuliert, führt das zu
einer schlechteren Performanz
2. Wenn der Agent sanft in eine Richtung geleitet wird und
der Einfluss von Ĥ mit der Zeit reduziert wird, führt das
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 47
der Einfluss von Ĥ mit der Zeit reduziert wird, führt das
zu einer guten Performanz
Ziel
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 48
Frage
Ziel:
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 49
Erreicht, ja oder nein ?
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 50
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 51
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 52
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 53
• Roboter (Operationen) � nein
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 54
• Roboter (Operationen) � nein
• Für komplexe Anwendungen noch nicht genügend
erforscht
Quellen
• http://en.wikipedia.org/wiki/Markov_decision_process
• http://en.wikipedia.org/wiki/Markov_property
• http://en.wikipedia.org/wiki/SARSA
• http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 55
html
• http://www.cs.utexas.edu/~bradknox/papers/aamas10post
er-knox.pdf