Upload
haduwig-leder
View
109
Download
0
Embed Size (px)
Citation preview
Agent Based Supply Chain Management 1
ABSCM-Vorlesung im WS 2001/2002
Agent Based Supply Chain Management 2
Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)
Agent Based Supply Chain Management 3
Merkmale verteilten Lernens
• Hauptkategorien verteilten Lernens – zentral / dezentral
• Grad der Dezentralisierung– Verteiltheit (zentral / MAS) – Parallelität (sequentiell ein Agent / parallel MAS)
• Interaktionsspezifische Eigenschaften• Grad der Interaktion (Beobachtung / Signal- /
Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang)• Häufigkeit der Interaktion (niedrig / hoch)• Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel)
Agent Based Supply Chain Management 4
Merkmale verteilten Lernens
• Mitwirkungsgebundene Eigenschaften – Relevanz der Einbindung (eigene Ausführung /
Anleitung)
• Rolle während der Einbindung– Generalisten / Spezialisten
• Zielspezifische Eigenschaften– Arten der Verbesserung beim Lernen– eigenes Handeln / gemeinschaftliche Zielerreichung
• Vereinbarkeit der Lernziele– Unterscheidung: komplementäre und konfligierende
Lernziele
Agent Based Supply Chain Management 5
Merkmale verteilten Lernens
• Lernmethoden
– Routinelernen– Lernen durch Anleitung– Lernen am Beispiel und aus Erfahrung– Analogielernen– Lernen durch Entdecken
Agent Based Supply Chain Management 6
Merkmale verteilten Lernens
• Lernkontrolle– Überwachtes Lernen: Lehrer
• Rückkopplung / Aktivität wird überwacht
– Bestätigungslernen (RL): Kritiker• Rückkopplung / Nutzen wird überwacht
– Nicht überwachtes Lernen: Beobachter• Keine Rückkopplung / Trial and Error-Prinzip
Agent Based Supply Chain Management 7
Credit Assignment Problem
• Das Belohnungsproblem (Credit Assignment Problem)– Zuweisung von Lob und Tadel– CAP: Ursache/Wirkungs-Prinzip
• Problem: richtige Zuordnung von Lob und Tadel
– Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns
einzelner Agenten im MAS
– Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des
Aktionsgefüges eines Agenten
Agent Based Supply Chain Management 8
Credit Assignment Problem
Inter-Agenten-CAP
Intra-Agenten-CAP
Agent Based Supply Chain Management 9
Reinforcement Learning
• Bekräftigungssignal als Rückkopplung: Reward r
• Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel
- S : Zustandsraum - A : Aktionsraum- Wahrscheinlichkeit des
Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a
ASSP :
rPAS ,,,
rPAS ,,,
Agent Based Supply Chain Management 10
ReinforcementLearning
RL-Agent
Umgebung
Bekräftigungslernender Agent in seiner Umwelt
Zustandst
rt+1
st+1
Reward
Agent Based Supply Chain Management 11
Reinforcement Learning
- Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt
-
- Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik
0 ,t tst
def
rEV
Agent Based Supply Chain Management 12
Zustandswert-Funktion V einer beliebigen Politik
a4, r4
a2 , r
2
a3, r3
a5, r5
a 1, r 1
)'s(V
)''s(V
a6, r6
)s(V
Zustandswert-Funktion
Agent Based Supply Chain Management 13
Aktionswert-Funktion
a4, r4
a2 , r
2a5, r5
a 1, r 1
a3, r3
a6, r6
)a,s(Q 11
s1
s2
)a,s(Q 32
Aktionswert-Funktion Q einer beliebigen Politik
Agent Based Supply Chain Management 14
Q-Learning
- Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert
- Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik
- bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)
)(* sV
Ss
ASQ :
)(),( ; sVasQ a
Agent Based Supply Chain Management 15
Q-Learning
- für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik.
- Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.
),(max)( ** asQsVAa
Ss
))','(max(),()1(),('
asQRßasQasQAa
Agent Based Supply Chain Management 16
Vorgehensweise:
Wiederhole für jede Episode:
1. Gehe von einem bestimmten s aus
2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy
3. Beobachte Return r und Zustand s‘
4. Erstelle ein Update von Q folgendermaßen:)]a,s(Q)'a,'s(Qmaxr[)a,s(Q)a,s(Q
'a1t
5. Gehe von s zu s‘
Q-Learning