Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
METHODENPRAKTIKUM IIKurs 1
Prof. Dr. Beat FuxSUZ Frühlingssemester 2009
Prüfung von Modellannahmen (Regression)
StichprobengrösseAusreisserLinearitätMultikollinearitätNormalverteilungHomoskedastizität
Fux FS 20092
Stichprobengrösse
Faustregel:Für die Prüfung derRegressionsgleichung:N > 50 + 8*Anzahl der UVsFür die Prüfung derRegressionskoeffizienten:N > 104 + Anzahl der UVs
Fux FS 20093
Ausreisser
Fux FS 20094
Ausreisser (2)
Fux FS 20095
Linearität (1)
Fux FS 20096
Linearität (2)
Fux FS 20097
Multikollinearität (1)
Fux FS 20098
Multikollinearität (2)
Fux FS 20099
Normalverteilung (1)
Fux FS 200910
Normalverteilung (2)
Fux FS 200911
Normalverteilung (3)
Fux FS 200912
Normalverteilung (4)
Fux FS 200913
Normalverteilung (5)
Fux FS 200914
Homoskedastizität (1)
Fux FS 200915
Homoskedastizität (2)
Fux FS 200916
Homoskedastizität (3)
Fux FS 200917
Datentransformation (1)
Fux FS 200918
Datentransformation (2)
Fux FS 200919
Multivariate Verfahren
Skalierend- Reliabilitätsanalyse- multidimensional scaling MDS
Gruppierend- Clusteranalyse- Diskriminanzanalyse
Dimensionierend- Regression- Varianzanalyse- Faktorenanalyse- Korrespondenzanalyse
20 Fux FS 2009
Strukturen entdecken- Clusteranalyse- Faktorenanalyse- multidimensional scaling MDS
Strukturen prüfen- Regression- Varianzanalyse- Korrespondenzanalyse- Reliabilitätsanalyse- Diskriminanzanalyse
Multivariate Verfahren
21 Fux FS 2009
Verfahren
Strukturen prüfen
Strukturen entdecken
dimensionierend skalierend gruppierend
Cluster-analyse
Faktoranalyse
Diskriminanz-analyse
Regression
Varianzanalyse
Korrespondenz-analyse
multidim.-Scaling
Reliabilitäts-analyse
22Fux FS 2009
Datenniveau
unabhängige Variable
abhä
ngig
e Va
riab
le metrisch
nominal
Regression
Korrespondenz-analyse
Diskriminanz-analyse
Varianzanalyse
metrisch nominal
23Fux FS 2009
Verfahren
Faktoranalyse
RegressionVarianzanalyseKorres-
pondenz-analyse
multidim.-Scaling
Reliabilitäts-analyse
nurmetrisch
beliebig
metrisch/ordinal
metrisch/nominal
Cluster-analyse
Diskriminanz-analyse
nur nominal
gelb=struktur-prüfend
24 Fux FS 2009
Anwendungen - Regression
Einkommen –schätzen aus
Alter, Dauer der Ausbildung,
Wochenstunden, Geschlecht, …
Eine abhängige Variable soll
aufgrund einer/mehrerer
anderer Variablen erklärt/geschätzt/
vorhergesagt werden
Frage – Logik – Bsp
Multiple Korrelation –
partielle Korrelation
dimensionierend – Strukturen prüfen
alle Variablen metrisch + normalverteilt 25 Fux FS 2009
Social survey 1993 n für diese Analyse = 273 (exclude missings listwise)
F = 37,8, sig ,00000
26 Fux FS 2009
Anwendungen - Varianzanalyse
Durchschnittl. Hausarbeitszeit nach Geschlecht
und Familienstand
Die Mittelwerte einer abhängigen
Variable in verschiedenen
Gruppen werden auf signifikanten
Unterschied getestet
Varianz innerhalb der Gruppen
versus Varianz zwischen den
Gruppen
dimensionierend – Strukturen prüfen
Testvariable(n) metrisch – Gruppenvariablen kategorial
Frage – Logik – Bsp
27 Fux FS 2009
Hausarbeitszeit in Min.
Familienstand
lediggeschieden/getrennt
verw itw etverheiratet
Ges
chät
ztes
Ran
dmitt
el
300
200
100
0
maennlich
w eiblich
28 Fux FS 2009
Anwendungen - Faktoranalyse
Typische Ernährungs-
gewohnheiten nach
abgefragten Nahrungsmitteln
Hinter mehreren Variablen liegende
Dimensionen auffinden
eine Art von Regression -
neue Funktionen bzw. Faktoren
bilden
Frage – Logik – Bsp
dimensionierend – Strukturen entdecken
alle Variablen metrisch, gleiche Skala + normalverteilt
29 Fux FS 2009
HBSC Gesundheitsrelevantes Verhalten von SchülerInnen, 1990n= 3206
„fast food“
„gesund“
„Kaffee“
30 Fux FS 2009
Rauch-gewohnheiten bei bestimmen
Gruppen
Für welche Gruppen sind
welche Merkmale bedeutend
Mehr-dimensionale Kreuztabellen-
analyse
Anwendungen – Korrespondenz
Frage – Logik – Bsp
dimensionierend – Strukturen prüfen
alle Variablen kategorial
31 Fux FS 2009
Lifestyles aufgrund von Einstellungen
und sozioökonom. Merkmalen
Anhand von relevanten
Merkmalen sollen Gruppen
bestimmt werden
Abstände zwischen
Personenpunkten im Personenraum
Anwendungen – Clusteranalyse
Frage – Logik – Bsp
gruppierend – Strukturen entdecken
beliebiges Datenniveau 32 Fux FS 2009
traditionell
konventionell
konservativ
intellektuell
hedonistisch
materialistisch
33 Fux FS 2009
34 Fux FS 2009
Einstellung zu Wissenschaft und Technik
nach Lebensstil
Ist die bestehende
Gruppenbildung sinnvoll, bzw.
welche Merkmale sind zur
Gruppenbildung geeignet
Gruppen in zwei-dimensionalem
Raum abbilden –wie gut gelingt
dies –Funktion finden
Anwendungen – Diskriminanzanalyse
Frage – Logik – Bsp
gruppierend – Strukturen prüfen
Testvariablen: metrisch + normalverteilt Gruppenvariable kategorial
35 Fux FS 2009
Funktion 1
2,01,5
1,0,5
0,0-,5
-1,0-1,5
-2,0
Funk
tion
2
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Lebensstile
Gruppen-Mittelpunkte
materialistisch
hedonistisch
intellektuell
konservativ
konventionell
traditionell
materialistisch
hedonistisch
intellektuell
konservativ
konventionell
traditionell
Kanonische Diskriminanzfunktionnach 34 Einstellungen zu Wissenschaft und Technik
Optimismus/sorglos versus Pess/Angst
Au
snü
tzen
ve
rsu
s
S
chon
en
36Fux FS 2009
Anwendungen – Multidimensionale Skalierung
Einkommen, Bildung und berufliche Position zur Dimension
„Statuskonsistenz“ und
„Statusinkonsistenz“
Kann man mehrere
Variablen auf zwei (od.
mehrere) Skalen reduzieren
eine Art Faktoranalyse
Frage – Logik – Bsp
skalierend – Strukturen entdecken alle Variablen kategorial oder metrisch
37 Fux FS 2009
Objectscores Dim.1 (61% Variance)
43210-1-2
Obj
ects
core
s D
im.2
(27%
Var
ianc
e)
3
2
1
0
-1
-2
-3
-4
Cluster (n)
(410)
(2170)
(988)
(230)
SES German women
Δ (2170): •low educational level, •housewives, employees, skilled / unskilled workers•low / middle income
O (988): •low / middle educational level•employees, housewives, skilled workers, self employed in trade
•high / middle income
(230): •high educational level•high qualified employees, freelancers and artists•low / middle income
▼ (410): •high educational level•high qualified employees, freelancers and artists, managers
•high / middle income
Statuskonsistenz
Stat
usi
nko
nsi
sten
z
38 Fux FS 2009
39 Fux FS 2009
Biplot einer Faktoranalyse für kategoriale Daten
Fux FS 200940
SF
S
NL
CH
D
ISL
N
F
B
A
I
IRL
UK
P
PL
CZ
H
SR
CRO
EST
LIT
LAT
BG
BELA MONTE MAZ SERB
UKR MOLD
DK
RU
GR
LUX
right90
cent90
soc90
right95
cent95
soc95
com95
right00
cent00
soc00
com00right02
cent02
soc02
com02
F-1
F-2F-3
F-4
com90
Cluster (dt.: Traube, Haufen)
heuristisches Verfahren zur systemati-schen Klassifizierung von Beobachtungen, z.B. Personen, Autos, Schallplatten)Ziel: Auffinden von Gruppen, in denen sich Beobachtungen befinden, die innerhalb der Gruppe möglichst ähnlich sind und extern (zwischen den Gruppen) verschieden.Anwendungsgebiete: Sozialwissenschaften, Biologie, Wirtschafts-wissenschaften, Marktforschung
Fux FS 200941
Ähnlichkeit / Unähnlichkeit
Die Ähnlichkeit bzw. Unähnlich-keit wird auf der Basis von Merk-malen definiert.Z.B. gleiches Alter, gleiche Haar-farbe.Andere Begriffe für Unähnlichkeit Distanzfür Ähnlichkeit Proximität
Fux FS 200942
Beispiel (10 Fälle, 2 Merkmale (A; B; beide stetig)
Fux FS 200943
Euklidische Distanzen allgemein
Fux FS 200944
Distanzmasse für metrische Variablen
Euklidische DistanzCity Block-Distanz Summe der absoluten Differenzen = Spezialfälle der Minkowski-Distanz Hohe Unterschiede werden stark gewichtet. Masse sind translationsinvariant, aber nicht skaleninvariant. (Einkommen in Dollar oder Euro)Mahalanobis-Distanz dij=(xi-xj)‘ S-1 (xi-xj) wobei S-1 die Inverse der Stichproben-Varianz-Kovarianzmatrix der p Merkmale ist.Translations- und SkaleninvariantFux FS 200945
Binäre Variablen
Fux FS 200946
Ähnlichkeitskoeffizient von Jaccard
pij=a / (a+b+c) (d spielt keine Rolle)Das entsprechende Distanzmass ist:dij=1- pij = (b+c) / (a+b+c)pij nimmt Werte zwischen 0 und 1 an.Für das Beispiel: pAB= 3/6 = 0.5.
Fux FS 200947
Distanzmasse für binäre Merkmale
(Simple) Matching Koeffizientpij=a+d / (a+b+c+d)Jaccard- (Tanimoto-) Koeffizientpij=a / (a+b+c)RR-Koeffizientpij=a / (a+b+c+d)Dice-Koeffizientpij=2 a / (2 a+b+c)
Fux FS 200948
Mögliche Probleme
Ungleiche Skala StandardisierungUngleiches Skalenniveau der Merkmale
binäre Merkmale als metrische betrachtenmetrische Merkmale binär kodierenAggregation der verschiedenen
DistanzmaßeMerkmale sind korreliert
Berechnung von FaktorwertenMahalanobis-Distanz
Ordinalskalierte MerkmaleMerkmale am Median dichotomisierenMerkmale als metrische Daten behandelnFux FS 200949
Cluster-Analyse-VerfahrenHierarchischeVerfahren
Nichthierarchische Verfahren *
Start Feinste Partio-nierung, jedes Objekt bildet eineigenes Cluster
Vorgabe einerStartgruppierung
Clusterbildung Fusionierung von Clustern
Verschieben derObjekte
Ziel Das zuvor fest-gelegte Kriterium ist erfüllt.
Das zuvor fest-gelegte Kriterium ist erfüllt.
Fux FS 200950
* Auch: Partitionierendes Cluster-Analyse Verfahren, Clusterzentrenanalyse
Nichthierarchische Verfahren
Objekte werden solange in verschiedene Gruppen sortiert, bis die beste Lösung im Sinne des Kriteriums gefunden ist.Problem: enormer Arbeits- und Zeitauf-wand (bei 10 Objekten gibt es schon 115‘975 verschiedene Möglichkeiten), deshalb sind meist nur Annäherungen möglich.
Fux FS 200951
Ein Beispiel
Fux FS 200952
-4
-3
-2
-1
0
1
2
3
4
Prin 2
A
B
BELA
BG
CH
CRO
CYP
CZ
D
DK
E
EST
F
GR
H
I
IRL
ISL
LAT
LIT
LUX
MAZ
MOLD
N
NL
P
PLRU
S
SF
SLO
SR
UKUKR
1
23
4
-5 -4 -3 -2 -1 0 1 2 3 4 5Prin 1
Hierarchische Verfahren
1. Berechnung der Distanzen zwischen den Clustern
2. Fusionierung der beiden Cluster, die die geringste Distanz zueinander haben
3. Berechnung des Ende-Kriteriums: Wenn erfüllt, dann Ende; sonst weiter.
4. Berechnung der neuen Distanzen5. Zurück zu Punkt 2
ITERATIVES VERFAHREN !!
Fux FS 200953
Bsp: 10 Fälle, 2 Merkmale (A;B; beide stetig
Fux FS 200954
Distanzen zwischen den Clustern
Single Linkage: Nächst gelegener NachbarKleinste Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters
Ketten-TendenzComplete Linkage: Entferntester Nachbar größte Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters
anfällig für Ausreißer
Fux FS 200955
Distanzen zwischen den Clustern (2)
Average Linkage: Linkage zwischen den Grup-pen. Durchschnitt aller Distanz zwischen den Ob-jekten der beiden betrachteten Cluster
tendiert dazu Cluster mit kleinen Varianzen zu verbinden, neigt zu Clustern mit gleicher VarianzLinkage innerhalb der GruppenZentroid: Zentroid Clustering Quadrierte Euklidische Distanz zwischen Cluster-Mittelwerten
nur für metrische Merkmale, robust gegenüber Ausreissern)
Fux FS 200956
Distanzen zwischen Clustern: Ward
Distanz ist die Anova-Quadratsumme zwischen zwei Clustern (nur für intervall-skalierte normalverteilte Daten)vereinigt diejenigen Elemente, deren Fu-sion die Gesamtvarianz innerhalb der Clu-ster am geringsten erhöhtfindet Cluster mit annährend gleicher Be-setzungszahl
anfällig für Ausreisser
Fux FS 200957
Bewertungskriterium
Distanz zwischen zwei Clustern
Bestimmtheitsmass r2 (RSQ)Semipartielles BestimmheitsmassPseudo-FPseudo-t2
Fux FS 200958
Überprüfung der Cluster-Lösung
Inhaltliche InterpretationDeskriptive Unterschiede zwischen den Clustern auf weiteren VariablenDiskriminanzanalytische ÜberprüfungClustervariable als Gruppenvariable
Graphische VeranschaulichungEiszapfen, Dendogramm, Plot
Fux FS 200959
Hierarchische Clusteranalyse unter SPSS
Fux FS 200960
Ergebnisse
Fux FS 200961
Diagramme
Fux FS 200962
Multidimensionale Skalierung
Bei der multidimensionalen Skalierung wird versucht, die Struktur in einem Set von Distanzmassen zwischen Objekten oder Fällen zu erkennen. Dies wird durch das Zuweisen von Beobachtungen zu bestimmten Positionen in einem konzeptuellen Raum (gewöhnlich zwei- oder dreidimensional) er-zielt, und zwar so, dass die Distanzen zwischen den Punkten des Raums mit den gegebenen Unähnlichkeiten so gut wie möglich übereinstimmen. In vielen Fällen können die Dimensionen dieses konzeptuellen Raums inter-pretiert und für ein besseres Verständnis Ihrer Daten verwendet werden. Wenn Sie über objektiv gemessene Variablen verfügen, können Sie die multidimensionale Skalierung als Technik zur Datenreduktion verwenden (erforderlichenfalls berechnet die Prozedur "Multidimensionale Skalierung" die Distanzen aus multivariaten Daten für Sie). Die multidimensionale Ska-lierung kann auch auf subjektive Einschätzungen von Unähnlichkeiten zwi-schen Objekten oder Konzepten angewendet werden. Ausserdem kann sie Unähnlichkeitsdaten aus mehreren Quellen verarbeiten.
Fux FS 200963
Korrespondenzanalyse
Das Ziel der Korrespondenzanalyse besteht darin, die Bezie-hungen zwischen zwei nominalen Variablen in einer Korres-pondenztabelle in einem flachdimensionierten Raum und gleichzeitig die Beziehungen zwischen den Kategorien für jede Variable zu beschreiben. Für jede Variable werden die Beziehungen zwischen den Kategorien durch die Distanzen zwischen den Kategoriepunkten in einem Diagramm darge-stellt, wobei ähnliche Kategorien jeweils nahe beieinander liegen. Durch die Projizierung von Punkten für eine Variable auf dem Vektor vom Ursprung zu einem Kategoriepunkt einer anderen Variablen wird die Beziehung zwischen den Varia-blen beschrieben.
Fux FS 200964
Abgrenzung zur Kreuztabelle
Bei einer Analyse der Kontingenztafeln werden häufig Zeilen- und Spaltenprofile untersucht und Tests auf Unabhängigkeit mit Hilfe der Chi-Quadrat-Statistik durchgeführt. Die Anzahl der Profile kann jedoch unter Umständen relativ gross sein, wobei durch die Chi-Quadrat-Statistik die Abhängigkeits-struktur nicht erkennbar wird. Die Prozedur "Kreuz-tabelle" bietet verschiedene Zusammenhangs-masse und -tests, kann jedoch keine Beziehungen zwischen den Variablen darstellen.
Fux FS 200965
Abgrenzung zu Faktoranalyse
Die Faktorenanalyse ist ein Standardverfahren zur Beschrei-bung von Beziehungen zwischen Variablen in einem flach-dimensionierten Raum. Zur Faktorenanalyse werden jedoch Intervalldaten benötigt. Ausserdem muss die Anzahl der Beobachtungen das Fünffache der Anzahl der Variablen betragen. Andererseits wird bei der Korrespondenzanalyse von nominalen Variablen ausgegangen, so dass die Bezie-hungen zwischen den Kategorien jeder Variablen sowie die Beziehungen zwischen den Variablen beschrieben werden können. Zudem kann die Korrespondenzanalyse zur Unter-suchung einer beliebigen Tabelle mit positiven Korrespon-denzmassen verwendet werden.
Fux FS 200966