66
METHODENPRAKTIKUM II Kurs 1 Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

METHODENPRAKTIKUM IIKurs 1

Prof. Dr. Beat FuxSUZ Frühlingssemester 2009

Page 2: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Prüfung von Modellannahmen (Regression)

StichprobengrösseAusreisserLinearitätMultikollinearitätNormalverteilungHomoskedastizität

Fux FS 20092

Page 3: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Stichprobengrösse

Faustregel:Für die Prüfung derRegressionsgleichung:N > 50 + 8*Anzahl der UVsFür die Prüfung derRegressionskoeffizienten:N > 104 + Anzahl der UVs

Fux FS 20093

Page 4: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ausreisser

Fux FS 20094

Page 5: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ausreisser (2)

Fux FS 20095

Page 6: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Linearität (1)

Fux FS 20096

Page 7: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Linearität (2)

Fux FS 20097

Page 8: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Multikollinearität (1)

Fux FS 20098

Page 9: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Multikollinearität (2)

Fux FS 20099

Page 10: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Normalverteilung (1)

Fux FS 200910

Page 11: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Normalverteilung (2)

Fux FS 200911

Page 12: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Normalverteilung (3)

Fux FS 200912

Page 13: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Normalverteilung (4)

Fux FS 200913

Page 14: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Normalverteilung (5)

Fux FS 200914

Page 15: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Homoskedastizität (1)

Fux FS 200915

Page 16: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Homoskedastizität (2)

Fux FS 200916

Page 17: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Homoskedastizität (3)

Fux FS 200917

Page 18: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Datentransformation (1)

Fux FS 200918

Page 19: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Datentransformation (2)

Fux FS 200919

Page 20: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Multivariate Verfahren

Skalierend- Reliabilitätsanalyse- multidimensional scaling MDS

Gruppierend- Clusteranalyse- Diskriminanzanalyse

Dimensionierend- Regression- Varianzanalyse- Faktorenanalyse- Korrespondenzanalyse

20 Fux FS 2009

Page 21: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Strukturen entdecken- Clusteranalyse- Faktorenanalyse- multidimensional scaling MDS

Strukturen prüfen- Regression- Varianzanalyse- Korrespondenzanalyse- Reliabilitätsanalyse- Diskriminanzanalyse

Multivariate Verfahren

21 Fux FS 2009

Page 22: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Verfahren

Strukturen prüfen

Strukturen entdecken

dimensionierend skalierend gruppierend

Cluster-analyse

Faktoranalyse

Diskriminanz-analyse

Regression

Varianzanalyse

Korrespondenz-analyse

multidim.-Scaling

Reliabilitäts-analyse

22Fux FS 2009

Page 23: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Datenniveau

unabhängige Variable

abhä

ngig

e Va

riab

le metrisch

nominal

Regression

Korrespondenz-analyse

Diskriminanz-analyse

Varianzanalyse

metrisch nominal

23Fux FS 2009

Page 24: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Verfahren

Faktoranalyse

RegressionVarianzanalyseKorres-

pondenz-analyse

multidim.-Scaling

Reliabilitäts-analyse

nurmetrisch

beliebig

metrisch/ordinal

metrisch/nominal

Cluster-analyse

Diskriminanz-analyse

nur nominal

gelb=struktur-prüfend

24 Fux FS 2009

Page 25: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Anwendungen - Regression

Einkommen –schätzen aus

Alter, Dauer der Ausbildung,

Wochenstunden, Geschlecht, …

Eine abhängige Variable soll

aufgrund einer/mehrerer

anderer Variablen erklärt/geschätzt/

vorhergesagt werden

Frage – Logik – Bsp

Multiple Korrelation –

partielle Korrelation

dimensionierend – Strukturen prüfen

alle Variablen metrisch + normalverteilt 25 Fux FS 2009

Page 26: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Social survey 1993 n für diese Analyse = 273 (exclude missings listwise)

F = 37,8, sig ,00000

26 Fux FS 2009

Page 27: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Anwendungen - Varianzanalyse

Durchschnittl. Hausarbeitszeit nach Geschlecht

und Familienstand

Die Mittelwerte einer abhängigen

Variable in verschiedenen

Gruppen werden auf signifikanten

Unterschied getestet

Varianz innerhalb der Gruppen

versus Varianz zwischen den

Gruppen

dimensionierend – Strukturen prüfen

Testvariable(n) metrisch – Gruppenvariablen kategorial

Frage – Logik – Bsp

27 Fux FS 2009

Page 28: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Hausarbeitszeit in Min.

Familienstand

lediggeschieden/getrennt

verw itw etverheiratet

Ges

chät

ztes

Ran

dmitt

el

300

200

100

0

maennlich

w eiblich

28 Fux FS 2009

Page 29: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Anwendungen - Faktoranalyse

Typische Ernährungs-

gewohnheiten nach

abgefragten Nahrungsmitteln

Hinter mehreren Variablen liegende

Dimensionen auffinden

eine Art von Regression -

neue Funktionen bzw. Faktoren

bilden

Frage – Logik – Bsp

dimensionierend – Strukturen entdecken

alle Variablen metrisch, gleiche Skala + normalverteilt

29 Fux FS 2009

Page 30: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

HBSC Gesundheitsrelevantes Verhalten von SchülerInnen, 1990n= 3206

„fast food“

„gesund“

„Kaffee“

30 Fux FS 2009

Page 31: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Rauch-gewohnheiten bei bestimmen

Gruppen

Für welche Gruppen sind

welche Merkmale bedeutend

Mehr-dimensionale Kreuztabellen-

analyse

Anwendungen – Korrespondenz

Frage – Logik – Bsp

dimensionierend – Strukturen prüfen

alle Variablen kategorial

31 Fux FS 2009

Page 32: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Lifestyles aufgrund von Einstellungen

und sozioökonom. Merkmalen

Anhand von relevanten

Merkmalen sollen Gruppen

bestimmt werden

Abstände zwischen

Personenpunkten im Personenraum

Anwendungen – Clusteranalyse

Frage – Logik – Bsp

gruppierend – Strukturen entdecken

beliebiges Datenniveau 32 Fux FS 2009

Page 33: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

traditionell

konventionell

konservativ

intellektuell

hedonistisch

materialistisch

33 Fux FS 2009

Page 34: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

34 Fux FS 2009

Page 35: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Einstellung zu Wissenschaft und Technik

nach Lebensstil

Ist die bestehende

Gruppenbildung sinnvoll, bzw.

welche Merkmale sind zur

Gruppenbildung geeignet

Gruppen in zwei-dimensionalem

Raum abbilden –wie gut gelingt

dies –Funktion finden

Anwendungen – Diskriminanzanalyse

Frage – Logik – Bsp

gruppierend – Strukturen prüfen

Testvariablen: metrisch + normalverteilt Gruppenvariable kategorial

35 Fux FS 2009

Page 36: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Funktion 1

2,01,5

1,0,5

0,0-,5

-1,0-1,5

-2,0

Funk

tion

2

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Lebensstile

Gruppen-Mittelpunkte

materialistisch

hedonistisch

intellektuell

konservativ

konventionell

traditionell

materialistisch

hedonistisch

intellektuell

konservativ

konventionell

traditionell

Kanonische Diskriminanzfunktionnach 34 Einstellungen zu Wissenschaft und Technik

Optimismus/sorglos versus Pess/Angst

Au

snü

tzen

ve

rsu

s

S

chon

en

36Fux FS 2009

Page 37: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Anwendungen – Multidimensionale Skalierung

Einkommen, Bildung und berufliche Position zur Dimension

„Statuskonsistenz“ und

„Statusinkonsistenz“

Kann man mehrere

Variablen auf zwei (od.

mehrere) Skalen reduzieren

eine Art Faktoranalyse

Frage – Logik – Bsp

skalierend – Strukturen entdecken alle Variablen kategorial oder metrisch

37 Fux FS 2009

Page 38: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Objectscores Dim.1 (61% Variance)

43210-1-2

Obj

ects

core

s D

im.2

(27%

Var

ianc

e)

3

2

1

0

-1

-2

-3

-4

Cluster (n)

(410)

(2170)

(988)

(230)

SES German women

Δ (2170): •low educational level, •housewives, employees, skilled / unskilled workers•low / middle income

O (988): •low / middle educational level•employees, housewives, skilled workers, self employed in trade

•high / middle income

(230): •high educational level•high qualified employees, freelancers and artists•low / middle income

▼ (410): •high educational level•high qualified employees, freelancers and artists, managers

•high / middle income

Statuskonsistenz

Stat

usi

nko

nsi

sten

z

38 Fux FS 2009

Vorführender
Präsentationsnotizen
The picture is a little bit different for German women: The most left and the most right cluster are again according to what we expected: on the left side (with low values at the first dimension): women with low educational level, low occupational status and low income on the right side (with high values at the first dimension): women with high educational level, high occupational status and high income But: there is a huge difference between the two middle clusters at the second dimension which is explained mostly by income differences): at the top: women with low or middle educational level, middle occupational status and high or middle income in contrast to the cluster at the bottom: women with high educational level, high occupational status and low income (these are the poor academics) So, I think it is interesting to look not only at the first dimension but also at the second (in Germany).
Page 39: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

39 Fux FS 2009

Page 40: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Biplot einer Faktoranalyse für kategoriale Daten

Fux FS 200940

SF

S

NL

CH

D

ISL

N

F

B

A

I

IRL

UK

P

PL

CZ

H

SR

CRO

EST

LIT

LAT

BG

BELA MONTE MAZ SERB

UKR MOLD

DK

RU

GR

LUX

right90

cent90

soc90

right95

cent95

soc95

com95

right00

cent00

soc00

com00right02

cent02

soc02

com02

F-1

F-2F-3

F-4

com90

Page 41: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Cluster (dt.: Traube, Haufen)

heuristisches Verfahren zur systemati-schen Klassifizierung von Beobachtungen, z.B. Personen, Autos, Schallplatten)Ziel: Auffinden von Gruppen, in denen sich Beobachtungen befinden, die innerhalb der Gruppe möglichst ähnlich sind und extern (zwischen den Gruppen) verschieden.Anwendungsgebiete: Sozialwissenschaften, Biologie, Wirtschafts-wissenschaften, Marktforschung

Fux FS 200941

Page 42: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ähnlichkeit / Unähnlichkeit

Die Ähnlichkeit bzw. Unähnlich-keit wird auf der Basis von Merk-malen definiert.Z.B. gleiches Alter, gleiche Haar-farbe.Andere Begriffe für Unähnlichkeit Distanzfür Ähnlichkeit Proximität

Fux FS 200942

Page 43: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Beispiel (10 Fälle, 2 Merkmale (A; B; beide stetig)

Fux FS 200943

Page 44: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Euklidische Distanzen allgemein

Fux FS 200944

Page 45: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Distanzmasse für metrische Variablen

Euklidische DistanzCity Block-Distanz Summe der absoluten Differenzen = Spezialfälle der Minkowski-Distanz Hohe Unterschiede werden stark gewichtet. Masse sind translationsinvariant, aber nicht skaleninvariant. (Einkommen in Dollar oder Euro)Mahalanobis-Distanz dij=(xi-xj)‘ S-1 (xi-xj) wobei S-1 die Inverse der Stichproben-Varianz-Kovarianzmatrix der p Merkmale ist.Translations- und SkaleninvariantFux FS 200945

Page 46: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Binäre Variablen

Fux FS 200946

Page 47: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ähnlichkeitskoeffizient von Jaccard

pij=a / (a+b+c) (d spielt keine Rolle)Das entsprechende Distanzmass ist:dij=1- pij = (b+c) / (a+b+c)pij nimmt Werte zwischen 0 und 1 an.Für das Beispiel: pAB= 3/6 = 0.5.

Fux FS 200947

Page 48: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Distanzmasse für binäre Merkmale

(Simple) Matching Koeffizientpij=a+d / (a+b+c+d)Jaccard- (Tanimoto-) Koeffizientpij=a / (a+b+c)RR-Koeffizientpij=a / (a+b+c+d)Dice-Koeffizientpij=2 a / (2 a+b+c)

Fux FS 200948

Page 49: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Mögliche Probleme

Ungleiche Skala StandardisierungUngleiches Skalenniveau der Merkmale

binäre Merkmale als metrische betrachtenmetrische Merkmale binär kodierenAggregation der verschiedenen

DistanzmaßeMerkmale sind korreliert

Berechnung von FaktorwertenMahalanobis-Distanz

Ordinalskalierte MerkmaleMerkmale am Median dichotomisierenMerkmale als metrische Daten behandelnFux FS 200949

Page 50: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Cluster-Analyse-VerfahrenHierarchischeVerfahren

Nichthierarchische Verfahren *

Start Feinste Partio-nierung, jedes Objekt bildet eineigenes Cluster

Vorgabe einerStartgruppierung

Clusterbildung Fusionierung von Clustern

Verschieben derObjekte

Ziel Das zuvor fest-gelegte Kriterium ist erfüllt.

Das zuvor fest-gelegte Kriterium ist erfüllt.

Fux FS 200950

* Auch: Partitionierendes Cluster-Analyse Verfahren, Clusterzentrenanalyse

Page 51: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Nichthierarchische Verfahren

Objekte werden solange in verschiedene Gruppen sortiert, bis die beste Lösung im Sinne des Kriteriums gefunden ist.Problem: enormer Arbeits- und Zeitauf-wand (bei 10 Objekten gibt es schon 115‘975 verschiedene Möglichkeiten), deshalb sind meist nur Annäherungen möglich.

Fux FS 200951

Page 52: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ein Beispiel

Fux FS 200952

-4

-3

-2

-1

0

1

2

3

4

Prin 2

A

B

BELA

BG

CH

CRO

CYP

CZ

D

DK

E

EST

F

GR

H

I

IRL

ISL

LAT

LIT

LUX

MAZ

MOLD

N

NL

P

PLRU

S

SF

SLO

SR

UKUKR

1

23

4

-5 -4 -3 -2 -1 0 1 2 3 4 5Prin 1

Page 53: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Hierarchische Verfahren

1. Berechnung der Distanzen zwischen den Clustern

2. Fusionierung der beiden Cluster, die die geringste Distanz zueinander haben

3. Berechnung des Ende-Kriteriums: Wenn erfüllt, dann Ende; sonst weiter.

4. Berechnung der neuen Distanzen5. Zurück zu Punkt 2

ITERATIVES VERFAHREN !!

Fux FS 200953

Page 54: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Bsp: 10 Fälle, 2 Merkmale (A;B; beide stetig

Fux FS 200954

Page 55: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Distanzen zwischen den Clustern

Single Linkage: Nächst gelegener NachbarKleinste Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters

Ketten-TendenzComplete Linkage: Entferntester Nachbar größte Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters

anfällig für Ausreißer

Fux FS 200955

Page 56: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Distanzen zwischen den Clustern (2)

Average Linkage: Linkage zwischen den Grup-pen. Durchschnitt aller Distanz zwischen den Ob-jekten der beiden betrachteten Cluster

tendiert dazu Cluster mit kleinen Varianzen zu verbinden, neigt zu Clustern mit gleicher VarianzLinkage innerhalb der GruppenZentroid: Zentroid Clustering Quadrierte Euklidische Distanz zwischen Cluster-Mittelwerten

nur für metrische Merkmale, robust gegenüber Ausreissern)

Fux FS 200956

Page 57: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Distanzen zwischen Clustern: Ward

Distanz ist die Anova-Quadratsumme zwischen zwei Clustern (nur für intervall-skalierte normalverteilte Daten)vereinigt diejenigen Elemente, deren Fu-sion die Gesamtvarianz innerhalb der Clu-ster am geringsten erhöhtfindet Cluster mit annährend gleicher Be-setzungszahl

anfällig für Ausreisser

Fux FS 200957

Page 58: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Bewertungskriterium

Distanz zwischen zwei Clustern

Bestimmtheitsmass r2 (RSQ)Semipartielles BestimmheitsmassPseudo-FPseudo-t2

Fux FS 200958

Page 59: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Überprüfung der Cluster-Lösung

Inhaltliche InterpretationDeskriptive Unterschiede zwischen den Clustern auf weiteren VariablenDiskriminanzanalytische ÜberprüfungClustervariable als Gruppenvariable

Graphische VeranschaulichungEiszapfen, Dendogramm, Plot

Fux FS 200959

Page 60: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Hierarchische Clusteranalyse unter SPSS

Fux FS 200960

Page 61: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Ergebnisse

Fux FS 200961

Page 62: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Diagramme

Fux FS 200962

Page 63: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Multidimensionale Skalierung

Bei der multidimensionalen Skalierung wird versucht, die Struktur in einem Set von Distanzmassen zwischen Objekten oder Fällen zu erkennen. Dies wird durch das Zuweisen von Beobachtungen zu bestimmten Positionen in einem konzeptuellen Raum (gewöhnlich zwei- oder dreidimensional) er-zielt, und zwar so, dass die Distanzen zwischen den Punkten des Raums mit den gegebenen Unähnlichkeiten so gut wie möglich übereinstimmen. In vielen Fällen können die Dimensionen dieses konzeptuellen Raums inter-pretiert und für ein besseres Verständnis Ihrer Daten verwendet werden. Wenn Sie über objektiv gemessene Variablen verfügen, können Sie die multidimensionale Skalierung als Technik zur Datenreduktion verwenden (erforderlichenfalls berechnet die Prozedur "Multidimensionale Skalierung" die Distanzen aus multivariaten Daten für Sie). Die multidimensionale Ska-lierung kann auch auf subjektive Einschätzungen von Unähnlichkeiten zwi-schen Objekten oder Konzepten angewendet werden. Ausserdem kann sie Unähnlichkeitsdaten aus mehreren Quellen verarbeiten.

Fux FS 200963

Page 64: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Korrespondenzanalyse

Das Ziel der Korrespondenzanalyse besteht darin, die Bezie-hungen zwischen zwei nominalen Variablen in einer Korres-pondenztabelle in einem flachdimensionierten Raum und gleichzeitig die Beziehungen zwischen den Kategorien für jede Variable zu beschreiben. Für jede Variable werden die Beziehungen zwischen den Kategorien durch die Distanzen zwischen den Kategoriepunkten in einem Diagramm darge-stellt, wobei ähnliche Kategorien jeweils nahe beieinander liegen. Durch die Projizierung von Punkten für eine Variable auf dem Vektor vom Ursprung zu einem Kategoriepunkt einer anderen Variablen wird die Beziehung zwischen den Varia-blen beschrieben.

Fux FS 200964

Page 65: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Abgrenzung zur Kreuztabelle

Bei einer Analyse der Kontingenztafeln werden häufig Zeilen- und Spaltenprofile untersucht und Tests auf Unabhängigkeit mit Hilfe der Chi-Quadrat-Statistik durchgeführt. Die Anzahl der Profile kann jedoch unter Umständen relativ gross sein, wobei durch die Chi-Quadrat-Statistik die Abhängigkeits-struktur nicht erkennbar wird. Die Prozedur "Kreuz-tabelle" bietet verschiedene Zusammenhangs-masse und -tests, kann jedoch keine Beziehungen zwischen den Variablen darstellen.

Fux FS 200965

Page 66: METHODENPRAKTIKUM II - UZH00000000-3984-044c-0000-00001110e79c/… · UKR MOLD DK RU GR LUX right90 cent90 soc90 right95 cent95 soc9 5 com95 right00 cent00 soc00 com00 right02 cent02

Abgrenzung zu Faktoranalyse

Die Faktorenanalyse ist ein Standardverfahren zur Beschrei-bung von Beziehungen zwischen Variablen in einem flach-dimensionierten Raum. Zur Faktorenanalyse werden jedoch Intervalldaten benötigt. Ausserdem muss die Anzahl der Beobachtungen das Fünffache der Anzahl der Variablen betragen. Andererseits wird bei der Korrespondenzanalyse von nominalen Variablen ausgegangen, so dass die Bezie-hungen zwischen den Kategorien jeder Variablen sowie die Beziehungen zwischen den Variablen beschrieben werden können. Zudem kann die Korrespondenzanalyse zur Unter-suchung einer beliebigen Tabelle mit positiven Korrespon-denzmassen verwendet werden.

Fux FS 200966