16
Agent Based Supply Chain Management 1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Embed Size (px)

Citation preview

Page 1: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 1

ABSCM-Vorlesung im WS 2001/2002

Page 2: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 2

Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)

Page 3: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 3

Merkmale verteilten Lernens

• Hauptkategorien verteilten Lernens – zentral / dezentral

• Grad der Dezentralisierung– Verteiltheit (zentral / MAS) – Parallelität (sequentiell ein Agent / parallel MAS)

• Interaktionsspezifische Eigenschaften• Grad der Interaktion (Beobachtung / Signal- /

Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang)• Häufigkeit der Interaktion (niedrig / hoch)• Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel)

Page 4: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 4

Merkmale verteilten Lernens

• Mitwirkungsgebundene Eigenschaften – Relevanz der Einbindung (eigene Ausführung /

Anleitung)

• Rolle während der Einbindung– Generalisten / Spezialisten

• Zielspezifische Eigenschaften– Arten der Verbesserung beim Lernen– eigenes Handeln / gemeinschaftliche Zielerreichung

• Vereinbarkeit der Lernziele– Unterscheidung: komplementäre und konfligierende

Lernziele

Page 5: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 5

Merkmale verteilten Lernens

• Lernmethoden

– Routinelernen– Lernen durch Anleitung– Lernen am Beispiel und aus Erfahrung– Analogielernen– Lernen durch Entdecken

Page 6: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 6

Merkmale verteilten Lernens

• Lernkontrolle– Überwachtes Lernen: Lehrer

• Rückkopplung / Aktivität wird überwacht

– Bestätigungslernen (RL): Kritiker• Rückkopplung / Nutzen wird überwacht

– Nicht überwachtes Lernen: Beobachter• Keine Rückkopplung / Trial and Error-Prinzip

Page 7: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 7

Credit Assignment Problem

• Das Belohnungsproblem (Credit Assignment Problem)– Zuweisung von Lob und Tadel– CAP: Ursache/Wirkungs-Prinzip

• Problem: richtige Zuordnung von Lob und Tadel

– Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns

einzelner Agenten im MAS

– Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des

Aktionsgefüges eines Agenten

Page 8: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 8

Credit Assignment Problem

Inter-Agenten-CAP

Intra-Agenten-CAP

Page 9: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 9

Reinforcement Learning

• Bekräftigungssignal als Rückkopplung: Reward r

• Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel

- S : Zustandsraum - A : Aktionsraum- Wahrscheinlichkeit des

Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a

ASSP :

rPAS ,,,

rPAS ,,,

Page 10: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 10

ReinforcementLearning

RL-Agent

Umgebung

Bekräftigungslernender Agent in seiner Umwelt

Zustandst

rt+1

st+1

Reward

Page 11: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 11

Reinforcement Learning

- Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt

-

- Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik

0 ,t tst

def

rEV

Page 12: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 12

Zustandswert-Funktion V einer beliebigen Politik

a4, r4

a2 , r

2

a3, r3

a5, r5

a 1, r 1

)'s(V

)''s(V

a6, r6

)s(V

Zustandswert-Funktion

Page 13: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 13

Aktionswert-Funktion

a4, r4

a2 , r

2a5, r5

a 1, r 1

a3, r3

a6, r6

)a,s(Q 11

s1

s2

)a,s(Q 32

Aktionswert-Funktion Q einer beliebigen Politik

Page 14: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 14

Q-Learning

- Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert

- Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik

- bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)

)(* sV

Ss

ASQ :

)(),( ; sVasQ a

Page 15: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 15

Q-Learning

- für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik.

- Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.

),(max)( ** asQsVAa

Ss

))','(max(),()1(),('

asQRßasQasQAa

Page 16: Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management 16

Vorgehensweise:

Wiederhole für jede Episode:

1. Gehe von einem bestimmten s aus

2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy

3. Beobachte Return r und Zustand s‘

4. Erstelle ein Update von Q folgendermaßen:)]a,s(Q)'a,'s(Qmaxr[)a,s(Q)a,s(Q

'a1t

5. Gehe von s zu s‘

Q-Learning