Modµelesd’¶equations structurellesmephisto.unige.ch/pub/stats/Aqc/doc/Notes_de_cours/aqc_4_modeles... · Estimationettestd’hypothµeses avecles modµeleslin¶eairesd’¶equationsstructurelles

Modeles d’equations

structurelles

Introduction a AMOS

AQC, EQS, 4/3/2001GR 47

Modele lineaire d’equationsstructurelles

EQS : equations structurelles

SEM : Structural equation model

LISREL : Linear structural relations

AMOS : Analysis of moment structure

References

Arbuckle, J. L. and Wothke, W. (1999). Amos

4.0 Users’ Guide. SmallWaters, Chicago.

Bollen, K. A. (1989). Structural Equations with

Latent Variables. Wiley, New York.

Goldberger, A. and Duncan, O., editors (1973).

Structural Equation Models in the Social

Sciences. Wiley-Interscience, New York.

Jaccard, J. and Wan, C. (1996). LISREL

Approaches to Interaction Effects in Multiple

Regression. QASS. Sage, London.

Joreskog, K. and Sorbom, D. (1989). LISREL

7 User’s Reference Guide. Scientific

Software, Mooresville, IN.

AQC, EQS, 4/3/2001GR 48

R é a l i t ép h é n o m è n e à é t u d i e r

E n n o n c é s n o r m a t i f s O b s e r v a t i o ns t a t i s t i q u e

è M o d è l e t h é o r i q u e

è H y p o t h è s e s

C o n f r o n t a t i o nF Q u a n t i f i c a t i o n

F V a l i d a t i o n

M o d è l e e m p i r i q u e

A c t i o n : - P r é v i s i o n- P r i s e d e d é c i s i o n- E v a l u a t i o n d e p o l i t i q u e s

w

D e s c r i p t i o ns t a t i s t i q u e

w

AQC,EQS,4/3/2001GR

49

Estimation et test d’hypotheses avec les

modeles lineaires d’equations structurelles

(EQS).

Un phenomene est schematise sous forme d’un

graphique de causalite entre variables

(equations lineaires).

1. Possibilite d’effets de retour (feedbacks).

2. Hypotheses larges sur les termes d’erreurs

(possibilites de correlations entre erreurs).

3. Modelisation des erreurs de mesures (par

l’introduction de variables latentes).

Les schemas (hypotheses) sont testes en

etudiant l’ajustement du modele aux donnees.

AQC, EQS, 4/3/2001GR 50

Analyse quantitative des relationsde causalite

Estimation et test d’hypotheses avec les

modeles lineaires d’equations structurelles

(EQS)

plan

1. Forme generale du modele et notations

2. Estimation et probleme d’identification

3. Statistiques d’evaluation

4. Initiation au logiciel AMOS

5. Etudes de cas : par exemple

– test de non correlation

– modele avec variables latentes

– test de comportement identique dans

differents groupes

AQC, EQS, 4/3/2001GR 51

Exemple de modele simultane

Donnees : Bank

SEX

EDLEVELWORK

SALBEG SALNOW

AGEBEG

ue1

uw1

usn1usa

1

AQC, EQS, 4/3/2001GR 52

Representation equivalente sous forme de 4

equations (variables centrees) :

edlevel = β11agebeg

+ β12sex + ue

work = β21agebeg

+ β22sex + β23edlevel + uw

salbeg = β32sex

+ β33edlevel + β34work + usa

salnow = β42sex

+ β43edlevel + β44work

+ β45salbeg + usn

Quantifier les influences :

– Proceder a 4 regressions independantes

(possible ici car pas d’effets de retour.)

– Estimer simultanement le systeme (possible

avec AMOS.)

AQC, EQS, 4/3/2001GR 53

Forme generale du modele et notations

x 1 x 2

d 1 d 2

l 1 1x l 2 1

x

h 1

y 1 y 2

e 1 e 2

l 1 1y l 2 1

y

z 1

g 1 1

h 2y 3e 3

z 3

g 2 1

b 2 1

b 1 2

x 1

l 3 2y

AQC, EQS, 4/3/2001GR 54

Systemes d’equations EQS (ou LISREL)

η = Bη+Γξ+ ζ

y = Λyη+ ε

x = Λxξ+ δ

E(η) = 0, E(ξ) = 0, E(ζ) = 0

ζ non correle avec ξ

E(ε) = 0, E(δ) = 0,

ε non correle avec η, ξ et δ

δ non correle avec η, ξ et ε

(I −B) non-singuliere.

AQC, EQS, 4/3/2001GR 55

Les variables

not. dim. definition

η m× 1 variables endogenes latentesξ n× 1 variables exogenes latentes

y p× 1 indicateurs observes de ηx q × 1 indicateurs observes de ξ

ζ m× 1 erreurs latentes des equationsε p× 1 erreurs de mesures pour yδ q × 1 erreurs de mesures pour x

Les parametres

not. dim. definition

Coefficients

B m×m coef. des var. endogenes latentesΓ m× n coef. des var. exogenes latentes

Λy p×m coef. liant y a ηΛx q × n coef. liant x a ξ

Matrice de covariances

Φ n× n Var(ξ) = E(ξξ′)Ψ m×m Var(ζ) = E(ζζ ′)Θε p× p Var(ε) = E(εε′)Θδ q × q Var(δ) = E(δδ′)

AQC, EQS, 4/3/2001GR 56

Estimation du modele EQS

L’estimation du modele exploite la relation

entre

- les parametres θ

(θ = vecteur des parametres

B,Γ,Λy,Λx,Φ,Ψ,Θε,Θδ)

- les variances et covariances (matrice Σ) des

variables observables.

Σ = Σ(θ) =

[Σyy(θ) Σyx(θ)Σxy(θ) Σxx(θ)

]

Pour un modele sans variables latentes (y = η

et x = ξ)

y = By+Γx+ ζ

y = (I −B)−1Γx+ (I −B)−1ζ

Les variances covariances des x sont simplement

Σxx = E(xx′)= E(ξξ′)= Φ

AQC, EQS, 4/3/2001GR 57

Les covariances entre les x et les y sont

Σyx = E(yx′)= E((I −B)−1Γxx′) + E((I −B)−1ζx′)︸︷︷︸

0

= (I −B)−1ΓΦ

Les variances et covariances des y sont

Σyy = E(yy′)

= E((I−B)−1(Γx+ ζ)(x′Γ′+ ζ′)(I −B)′−1

)

= (I −B)−1(ΓE(xx′)Γ′+ΓE(xζ′)

+ E(ζx′)Γ′+E(ζζ′))(I −B)′−1

= (I −B)−1(ΓΦΓ′+Ψ

)(I −B)′−1

Pour un modele sans variables latentes,

Σ(θ) est donc

(I−B)−1(ΓΦΓ′+Ψ

)(I−B)′−1 (I−B)−1ΓΦ

ΦΓ′(I−B)′−1 Φ

AQC, EQS, 4/3/2001GR 58

Exemple :

y1 = γ11x1+ ζ1

y2 = β21y1+ ζ2

avec

Cov(x1, ζ1) = 0,

Cov(x1, ζ2) = 0,

ψ12 = Cov(ζ1, ζ2) = 0.

On a

B =

[0 0β21 0

]Γ =

[γ110

]

Ψ =

[ψ11 00 ψ22

]Φ = [φ11]

et

Var(y1)Cov(y2, y1) Var(y2)Cov(x1, y1) Cov(x1, y2) Var(x1)

=

γ211φ11+ψ11β21(γ

211φ11+ψ11) β221(γ

211φ11+ψ11)+ψ22

γ11φ11 β21γ11φ11 φ11

AQC, EQS, 4/3/2001GR 59

Procedure d’estimation

Trouver les valeurs θ qui generent la matrice

Σ = Σ(θ)

la plus proche possible (selon critere a definir)de la matrice des covariances empiriques S. Onminimise une certaine fonction de

(S −Σ(θ)

)

Criteres usuels :

- Le maximum de vraisemblance (ml)

FML =

= log|Σ(θ)|+ tr(SΣ−1(θ)

)− log|S| − (p+q)

- Les moindres carres simples (uls)

FMCS = (1/2) tr[(S −Σ(θ)

)2]

- Les moindres carres generalises (gls)

FMCG = (1/2) tr

[{(S −Σ(θ)

)W−1}2

]

ou W−1 est une matrice de ponderation (engeneral S−1).

Dans tous les cas la solution est une fonction

θ = θ(S)

AQC, EQS, 4/3/2001GR 60

Identification

Le modele est exactement identifie si la

fonction Σ(θ) admet une fonction inverse

θ = θ(Σ)⇐⇒ Σ = Σ(θ)

c’est-a-dire s’il existe une relation biunivoque

entre les parametres et la matrice des variances

et covariances des variables observables.

Si identification exacte, on a

θ = θ(S) ⇒ Σ = Σ(θ) = S

AQC, EQS, 4/3/2001GR 61

On peut cependant avoir

Sous-identification

Plus de parametres θ que d’elements

independants dans Σ : les parametres θ ne

peuvent pas etre tous quantifies a partir de S.

Sur-identification

Moins de parametres θ que d’elements

independants dans Σ : on ne peut pas generer

n’importe quelle matrice Σ. Les elements de Σ

doivent satisfaire les conditions imposees par

Σ = Σ(θ).

⇒ Σ 6= S

Condition necessaire d’identification

pour le modele sans variables latentes

r ≤ 1

2(p+ q)(p+ q+1)

ou r est le nombre de parametres θ libres.

AQC, EQS, 4/3/2001GR 62

Exemple de modele identifie

Exemple :

y1 = y2+ x1

y2 = β21y1+ ζ2

avec

Cov(x1, ζ2) = 0.

On a

B =

[0 1β21 0

]Γ =

[10

]

Ψ =

[0 00 ψ22

]Φ = [φ11]

et

Σ(θ) =

=

(1−β21)−2(φ11+ψ22)

(1−β21)−2(β21φ11+ψ22) (1−β21)−2(β221φ11+ψ22)

(1−β21)−1φ11 (1−β21)−1β21φ11 φ11

AQC, EQS, 4/3/2001GR 63

Identification : exemple

r = 3, p = 2, q = 1

r = 3 <1

2(p+ q)(p+ q+1) = 6

Condition necessaire satisfaite.

En fait la matrice Σ(θ) est singuliere.

La 1ere equation du modele est une identite :

connaissant deux variables, on en deduit la

troisieme.

(La premiere ligne de Σ(θ) est la somme des

deux autres :

(1− β21)−1φ11 = (1− β21)−2(φ11 − β21φ11) et(1−β21)−1β21φ11 = (1−β21)−2(β21φ11−β221φ11))

Il y a donc une ligne et, par symetrie, une

colonne redondantes dans Σ(θ)

⇒ 3 (=r) elements independants.

⇒ identification exacte possible.

AQC, EQS, 4/3/2001GR 64

Eliminons la 2eme ligne et la 2eme colonne

de Σ(θ)

[Var(y1) sym

Cov(y1, x1) Var(x1)

]=

[(1− β21)−2(φ11 + ψ22) sym

(1− β21)−1φ11 φ11

]

d’ou

φ11 = Var(x1)

β21 = 1− Var(x1)

Cov(x1, y1)

ψ22 =

[Var(x1)

Cov(x1, y1)

]2Var(y1)−Var(x1)

Identification exacte : on a pu expliciter tous les

parametres de Σ(θ).

AQC, EQS, 4/3/2001GR 65

Lorsque B = 0 (p equations independantes) le

modele est toujours identifie.[Σyy(θ) Σyx(θ)Σxy(θ) Σxx(θ)

]=

[ΓΦΓ′+Ψ ΓΦ

ΦΓ′ Φ

]

d’ou

Φ = Σxx

Γ = ΣyxΣ−1xx

Ψ = Σyy −ΣyxΣ−1xxΣxy

AQC, EQS, 4/3/2001GR 66

AMOS

Logiciel d’estimation de modeles EQS

Input :

– Donnees en format SPSS, Excel, dBase,

texte, etc.

– individuelles

– matrice de covariances ou correlation

– Le modele specifie

– graphiquement (module graphique)

– sous formes d’equations (Basics)

Resultats :

– Sur le graphique

– Estimations des coefficients

– Estimations des variances et R2

– Fichier texte ou tableau

– Estimation des parametres (coefficients,

variances et covariances)

– Nombreuses aides a l’evaluation et a

l’interpretation

AQC, EQS, 4/3/2001GR 67

AMOS : options

AMOS offre un grands choix d’options

(procedures d’estimations, aides a l’evaluation,

etc.)

Les options peuvent etre precisees

– Pour une application particuliere :

Menu Set/Analysis Properties

– Comme valeurs de defaut :

En creant un template de defaut

AQC, EQS, 4/3/2001GR 68

Evaluation de l’ajustement

– significativite individuelle des parametres

– R2 pour les variables endogenes (equations)

– ajustement global et pertinence du modele

Significativite individuelle des parametres

ti =θiσθi

Sous les hypotheses de normalite, peut etre

compare au seuil critique de la loi normale

(1.96 pour un test bilateral avec α = 5%).

⇒ θi significatif si ti > 2.

(AMOS : CR)

AQC, EQS, 4/3/2001GR 69

Coefficients de determination

(mesurent la qualite de la prediction des

variables endogenes)

Pour chaque equation explicitant une variable

endogene yj

R2yj

= 1− ψjjσ2yj

=var(yj)

var(yj)

AMOS : $smc ⇒ squared multiple correlation

Pour l’ensemble des equations

R2global = 1− det(Ψ)

det(Σyy)

AMOS : non fourni

AQC, EQS, 4/3/2001GR 70

Ajustement global du modele

(Cas d’un seul groupe, g = 1)

q nbre de parametres libresp nbre d’elements independants de Σn nbre d’observationsθ vecteur des q parametres (AMOS : γ)α(θ) vecteur des p elements de Σ(θ)a vecteur des p elements de S

(moments empiriques)α0 vecteur des p elements de Σ0

(moments de la population)

C = C(α(θ), a)F = F (α(θ), a)C0 = C(α(θ0), α0)F0 = F (α(θ0), α0)

mesures de parcimonie

– q nombre de parametres libres a estimer

– d = p− q degres de liberte

– ddind

ratio de parcimonie

(AMOS : PRATIO)

AQC, EQS, 4/3/2001GR 71

Mesures de l’ecart entre Σ et S (discrepancy)

– C = (n− 1)F ∼ χ2d si modele correct

(AMOS : Cmin)

– p-valeur du test de

H0 : modele correct pour la population.

⇒ devrait etre > 5%.

(AMOS : P)

– Cd devrait etre petit (< 5), E(C/d | H0) = 1

(AMOS : Cmin/DF)

– F = 1(n−1) C

(AMOS : Fmin)

– racine du residu quadratique moyen :

RMR =

√√√√1

p

∑

i

∑

j≤i(σij − sij)2

AQC, EQS, 4/3/2001GR 72

Estimation de l’ecart entre Σ et Σ

Steiger, Shapiro, Brown (1985) ont montre que

sous certaines conditions :

C = (n− 1) F ∼ chi-2 non central

avec non-centralite δ = C0 = (n− 1)F0et d degres de liberte.

δ = C0 est l’ecart entre Σ et Σ.

Modele correct pour population ⇒ δ = 0.

Les mesures ci-dessous estiment cet ecart

AQC, EQS, 4/3/2001GR 73

– δ = max{C − d,0} estimation de δ

(AMOS : NCP)

– F0 =1

n−1 δ estimation de F0

(AMOS : F0)

Pas de penalite pour la complexite (d petit).

Diviser par d pour compenser la complexite ⇒

– Estimation de la racine de l’erreur

quadratique moyenne d’approximation

(RMSEA)

(AMOS : RMSEA)

RMSEA =

√F0d

devrait etre plus petit que 0.08

– p-valeur du test de H0 : RMSEA ≤ 0.05

(modele presque correct pour la population)

devrait etre > 5%

(AMOS : PCLOSE)

AQC, EQS, 4/3/2001GR 74

Mesures d’information

Mesures de la forme C + k q ou F + k q.

Tiennent compte simultanement de

– Mauvaise qualite de l’ajustement (C ou F )

– Complexite (k q)

k constante qui determine l’importance de la

penalite pour la complexite.

Utiles uniquement pour comparer des modeles.

⇒ preferer les petites valeurs.

Indices presentes selon l’importance croissante

accordee a la penalite pour la complexite.

AQC, EQS, 4/3/2001GR 75

– AIC (Akaike, 1973)

AIC = C +2q

– ECVI

ECVI =1

(n− 1)AIC = F +

2q

n− 1

– BCC (Browne-Cudek, 1989)

BCC = C +2q(n− 1)

n− p− 2

– MECVI

MECVI =1

(n− 1)BCC

– CAIC (Bodzogan, 1987) Consistent AIC

CAIC = C + q(ln(n) + 1)

– BIC (Schwartz, 1978, Raftery, 1993) Bayes

Information Criteria

BIC = C + q ln(np)

AQC, EQS, 4/3/2001GR 76

Goodness of Fit (GFI))

C’est la part de S reproduite par Σ.

(σs = 1− s−σ

s = 1− s/σ−1s/σ

)

GFIML = 1−tr((Σ−1S− I)2

)

tr((Σ−1S)2

)

AGFIML = 1−(q(q+1)

2df

)(1−GFIML)

NFI = ∆1 =Cb − Cm

Cb

IFI = ∆2 =Cb − CmCb − dm

RFI = ρ1 =Cb/db − Cm/dm

Cb/db

TFI = ρ2 =Cb/db − Cm/dm(Cb/db)− 1

AQC, EQS, 4/3/2001GR 77

CN : le N critique de Hoelter (1983)

(AMOS : HOELTER)

Plus grande taille d’echantillon pour laquelle on

accepterait l’hypothese que le modele est

correct.

CN =χ2[(1−α),d]F

+1

ne varie pas avec la taille d’echantillon n.

Selon Hoelter, CN devrait etre au moins 200

(g · 200 si g groupes) pour un risque α = 5%

AQC, EQS, 4/3/2001GR 78

Modeles contraints

2 types de contraintes :

1. fixer la valeur de parametres

2. imposer l’egalite de parametres

Dans AMOS, pour fixer valeur d’un parametre

– associer la valeur a l’objet (fleche pour

coefficients de regression, fleche

bidirectionnelle pour covariances, variable

pour variances)

– associer une etiquette (alpha-numerique) a

l’objet et definir la contrainte dans

“manage-models”.

Pour imposer l’egalite entre parametres

– associer la meme etiquette aux objets,

– associer des etiquettes differentes et definir la

(les) contrainte(s) dans “manage-models”.

AQC, EQS, 4/3/2001GR 79

Modeles imbriques

Un modele M est inclus dans le modele M0, s’il

se deduit du modele M0 par l’imposition de

contraintes supplementaires.

SALBEG

EDLEVEL

WORK

v

u1a

b

c

Modele M1 : tous les parametres libres

Modele M2 : a = b

Modele M3 : a = b, c = 0

M2 et M3 inclus dans M1,

M3 inclus dans M2.

AQC, EQS, 4/3/2001GR 80

Comparaison de modeles imbriques

Test de la difference entre M et M0 (M ⊂M0)

sous H0 : M correct si M0 correct,

CminM−M0= CminM − CminM0

∼ χ2dM−M0

ou dM−M0= dM − dM0

⇒ CminM−M0petit ⇔ M ne differe pas

significativement de M0

AQC, EQS, 4/3/2001GR 81

Comparaisons de groupes

AMOS : manage groups

Groupes : sexe, classes d’age, race, etc.

L’estimation simultanee du meme modele

– avec parametres independants pour chaque

groupe

– avec contraintes impliquant des parametres

de differents groupes

permet de tester les differences entre groupes.

Les statistiques concernent l’ensemble des

groupes, soit par exemple le modele :

[Y1 00 Y2

]=

[B1 00 B2

] [Y1 00 Y2

]+

[Γ1 00 Γ2

] [X1 00 X2

]+

[U1 00 U2

]

Certaines statistiques ne sont pas calcules dans

le cas de plusieurs groupes (BIC, CAIC).

AQC, EQS, 4/3/2001GR 82

Groupes : exemple

Groupe 1 : White

SALBEG

EDLEVEL

WORK

v

u1a

b

c

Groupe 2 : Non white

SALBEG

EDLEVEL

WORK

v2

u1a2

b2

c2

4 variables exogenes (observables)

2 variables endogenes (observables) 2 termes

d’erreur

⇒ nbre d’elements independants dans

matrice des moments empiriques :

p∗(1) = p∗(2) = 6 et p = 12

4 coefficients de regressions

6 variances (4 v. exog. + 2 termes d’erreurs)

2 covariances

⇒ nbre de parametres : q = 12

AQC, EQS, 4/3/2001GR 83

Documents

Modµelesd’¶equations structurellesmephisto.unige.ch/pub/stats/Aqc/doc/Notes_de_cours/aqc_4_modeles... · Estimationettestd’hypothµeses avecles modµeleslin¶eairesd’¶equationsstructurelles