Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 1

ABSCM-Vorlesung im WS 2001/2002


Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)


Merkmale verteilten Lernens

• Hauptkategorien verteilten Lernens – zentral / dezentral

• Grad der Dezentralisierung– Verteiltheit (zentral / MAS) – Parallelität (sequentiell ein Agent / parallel MAS)

• Interaktionsspezifische Eigenschaften• Grad der Interaktion (Beobachtung / Signal- /

Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang)• Häufigkeit der Interaktion (niedrig / hoch)• Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel)



• Mitwirkungsgebundene Eigenschaften – Relevanz der Einbindung (eigene Ausführung /

Anleitung)

• Rolle während der Einbindung– Generalisten / Spezialisten

• Zielspezifische Eigenschaften– Arten der Verbesserung beim Lernen– eigenes Handeln / gemeinschaftliche Zielerreichung

• Vereinbarkeit der Lernziele– Unterscheidung: komplementäre und konfligierende

Lernziele



• Lernmethoden

– Routinelernen– Lernen durch Anleitung– Lernen am Beispiel und aus Erfahrung– Analogielernen– Lernen durch Entdecken



• Lernkontrolle– Überwachtes Lernen: Lehrer

• Rückkopplung / Aktivität wird überwacht

– Bestätigungslernen (RL): Kritiker• Rückkopplung / Nutzen wird überwacht

– Nicht überwachtes Lernen: Beobachter• Keine Rückkopplung / Trial and Error-Prinzip


Credit Assignment Problem

• Das Belohnungsproblem (Credit Assignment Problem)– Zuweisung von Lob und Tadel– CAP: Ursache/Wirkungs-Prinzip

• Problem: richtige Zuordnung von Lob und Tadel

– Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns

einzelner Agenten im MAS

– Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des

Aktionsgefüges eines Agenten


Credit Assignment Problem

Inter-Agenten-CAP

Intra-Agenten-CAP


Reinforcement Learning

• Bekräftigungssignal als Rückkopplung: Reward r

• Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel

- S : Zustandsraum - A : Aktionsraum- Wahrscheinlichkeit des

Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a

ASSP :

rPAS ,,,

rPAS ,,,


ReinforcementLearning

RL-Agent

Umgebung

Bekräftigungslernender Agent in seiner Umwelt

Zustandst

rt+1

st+1

Reward


Reinforcement Learning

- Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt

-

- Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik

0 ,t tst

def

rEV


Zustandswert-Funktion V einer beliebigen Politik

a4, r4

a2 , r

2

a3, r3

a5, r5

a 1, r 1

)'s(V

)''s(V

a6, r6

)s(V

Zustandswert-Funktion


Aktionswert-Funktion

a4, r4

a2 , r

2a5, r5

a 1, r 1

a3, r3

a6, r6

)a,s(Q 11

s1

s2

)a,s(Q 32

Aktionswert-Funktion Q einer beliebigen Politik


Q-Learning

- Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert

- Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik

- bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)

)(* sV

Ss

ASQ :

)(),( ; sVasQ a


Q-Learning

- für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik.

- Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.

),(max)( ** asQsVAa

Ss

))','(max(),()1(),('

asQRßasQasQAa


Vorgehensweise:

Wiederhole für jede Episode:

1. Gehe von einem bestimmten s aus

2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy

3. Beobachte Return r und Zustand s‘

4. Erstelle ein Update von Q folgendermaßen:)]a,s(Q)'a,'s(Qmaxr[)a,s(Q)a,s(Q

'a1t

5. Gehe von s zu s‘

Q-Learning

Documents

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002