Upload
dotu
View
213
Download
0
Embed Size (px)
Citation preview
Modele lineaire d’equationsstructurelles
EQS : equations structurelles
SEM : Structural equation model
LISREL : Linear structural relations
AMOS : Analysis of moment structure
References
Arbuckle, J. L. and Wothke, W. (1999). Amos
4.0 Users’ Guide. SmallWaters, Chicago.
Bollen, K. A. (1989). Structural Equations with
Latent Variables. Wiley, New York.
Goldberger, A. and Duncan, O., editors (1973).
Structural Equation Models in the Social
Sciences. Wiley-Interscience, New York.
Jaccard, J. and Wan, C. (1996). LISREL
Approaches to Interaction Effects in Multiple
Regression. QASS. Sage, London.
Joreskog, K. and Sorbom, D. (1989). LISREL
7 User’s Reference Guide. Scientific
Software, Mooresville, IN.
AQC, EQS, 4/3/2001GR 48
R é a l i t ép h é n o m è n e à é t u d i e r
E n n o n c é s n o r m a t i f s O b s e r v a t i o ns t a t i s t i q u e
è M o d è l e t h é o r i q u e
è H y p o t h è s e s
C o n f r o n t a t i o nF Q u a n t i f i c a t i o n
F V a l i d a t i o n
M o d è l e e m p i r i q u e
A c t i o n : - P r é v i s i o n- P r i s e d e d é c i s i o n- E v a l u a t i o n d e p o l i t i q u e s
w
D e s c r i p t i o ns t a t i s t i q u e
w
AQC,EQS,4/3/2001GR
49
Estimation et test d’hypotheses avec les
modeles lineaires d’equations structurelles
(EQS).
Un phenomene est schematise sous forme d’un
graphique de causalite entre variables
(equations lineaires).
1. Possibilite d’effets de retour (feedbacks).
2. Hypotheses larges sur les termes d’erreurs
(possibilites de correlations entre erreurs).
3. Modelisation des erreurs de mesures (par
l’introduction de variables latentes).
Les schemas (hypotheses) sont testes en
etudiant l’ajustement du modele aux donnees.
AQC, EQS, 4/3/2001GR 50
Analyse quantitative des relationsde causalite
Estimation et test d’hypotheses avec les
modeles lineaires d’equations structurelles
(EQS)
plan
1. Forme generale du modele et notations
2. Estimation et probleme d’identification
3. Statistiques d’evaluation
4. Initiation au logiciel AMOS
5. Etudes de cas : par exemple
– test de non correlation
– modele avec variables latentes
– test de comportement identique dans
differents groupes
AQC, EQS, 4/3/2001GR 51
Exemple de modele simultane
Donnees : Bank
SEX
EDLEVELWORK
SALBEG SALNOW
AGEBEG
ue1
uw1
usn1usa
1
AQC, EQS, 4/3/2001GR 52
Representation equivalente sous forme de 4
equations (variables centrees) :
edlevel = β11agebeg
+ β12sex + ue
work = β21agebeg
+ β22sex + β23edlevel + uw
salbeg = β32sex
+ β33edlevel + β34work + usa
salnow = β42sex
+ β43edlevel + β44work
+ β45salbeg + usn
Quantifier les influences :
– Proceder a 4 regressions independantes
(possible ici car pas d’effets de retour.)
– Estimer simultanement le systeme (possible
avec AMOS.)
AQC, EQS, 4/3/2001GR 53
Forme generale du modele et notations
x 1 x 2
d 1 d 2
l 1 1x l 2 1
x
h 1
y 1 y 2
e 1 e 2
l 1 1y l 2 1
y
z 1
g 1 1
h 2y 3e 3
z 3
g 2 1
b 2 1
b 1 2
x 1
l 3 2y
AQC, EQS, 4/3/2001GR 54
Systemes d’equations EQS (ou LISREL)
η = Bη+Γξ+ ζ
y = Λyη+ ε
x = Λxξ+ δ
E(η) = 0, E(ξ) = 0, E(ζ) = 0
ζ non correle avec ξ
E(ε) = 0, E(δ) = 0,
ε non correle avec η, ξ et δ
δ non correle avec η, ξ et ε
(I −B) non-singuliere.
AQC, EQS, 4/3/2001GR 55
Les variables
not. dim. definition
η m× 1 variables endogenes latentesξ n× 1 variables exogenes latentes
y p× 1 indicateurs observes de ηx q × 1 indicateurs observes de ξ
ζ m× 1 erreurs latentes des equationsε p× 1 erreurs de mesures pour yδ q × 1 erreurs de mesures pour x
Les parametres
not. dim. definition
Coefficients
B m×m coef. des var. endogenes latentesΓ m× n coef. des var. exogenes latentes
Λy p×m coef. liant y a ηΛx q × n coef. liant x a ξ
Matrice de covariances
Φ n× n Var(ξ) = E(ξξ′)Ψ m×m Var(ζ) = E(ζζ ′)Θε p× p Var(ε) = E(εε′)Θδ q × q Var(δ) = E(δδ′)
AQC, EQS, 4/3/2001GR 56
Estimation du modele EQS
L’estimation du modele exploite la relation
entre
- les parametres θ
(θ = vecteur des parametres
B,Γ,Λy,Λx,Φ,Ψ,Θε,Θδ)
- les variances et covariances (matrice Σ) des
variables observables.
Σ = Σ(θ) =
[Σyy(θ) Σyx(θ)Σxy(θ) Σxx(θ)
]
Pour un modele sans variables latentes (y = η
et x = ξ)
y = By+Γx+ ζ
y = (I −B)−1Γx+ (I −B)−1ζ
Les variances covariances des x sont simplement
Σxx = E(xx′)= E(ξξ′)= Φ
AQC, EQS, 4/3/2001GR 57
Les covariances entre les x et les y sont
Σyx = E(yx′)= E((I −B)−1Γxx′) + E((I −B)−1ζx′)︸ ︷︷ ︸
0
= (I −B)−1ΓΦ
Les variances et covariances des y sont
Σyy = E(yy′)
= E((I−B)−1(Γx+ ζ)(x′Γ′+ ζ′)(I −B)′−1
)
= (I −B)−1(ΓE(xx′)Γ′+ΓE(xζ′)
+ E(ζx′)Γ′+E(ζζ′))(I −B)′−1
= (I −B)−1(ΓΦΓ′+Ψ
)(I −B)′−1
Pour un modele sans variables latentes,
Σ(θ) est donc
(I−B)−1(ΓΦΓ′+Ψ
)(I−B)′−1 (I−B)−1ΓΦ
ΦΓ′(I−B)′−1 Φ
AQC, EQS, 4/3/2001GR 58
Exemple :
y1 = γ11x1+ ζ1
y2 = β21y1+ ζ2
avec
Cov(x1, ζ1) = 0,
Cov(x1, ζ2) = 0,
ψ12 = Cov(ζ1, ζ2) = 0.
On a
B =
[0 0β21 0
]Γ =
[γ110
]
Ψ =
[ψ11 00 ψ22
]Φ = [φ11]
et
Var(y1)Cov(y2, y1) Var(y2)Cov(x1, y1) Cov(x1, y2) Var(x1)
=
γ211φ11+ψ11β21(γ
211φ11+ψ11) β221(γ
211φ11+ψ11)+ψ22
γ11φ11 β21γ11φ11 φ11
AQC, EQS, 4/3/2001GR 59
Procedure d’estimation
Trouver les valeurs θ qui generent la matrice
Σ = Σ(θ)
la plus proche possible (selon critere a definir)de la matrice des covariances empiriques S. Onminimise une certaine fonction de
(S −Σ(θ)
)
Criteres usuels :
- Le maximum de vraisemblance (ml)
FML =
= log|Σ(θ)|+ tr(SΣ−1(θ)
)− log|S| − (p+q)
- Les moindres carres simples (uls)
FMCS = (1/2) tr[(S −Σ(θ)
)2]
- Les moindres carres generalises (gls)
FMCG = (1/2) tr
[{(S −Σ(θ)
)W−1}2
]
ou W−1 est une matrice de ponderation (engeneral S−1).
Dans tous les cas la solution est une fonction
θ = θ(S)
AQC, EQS, 4/3/2001GR 60
Identification
Le modele est exactement identifie si la
fonction Σ(θ) admet une fonction inverse
θ = θ(Σ)⇐⇒ Σ = Σ(θ)
c’est-a-dire s’il existe une relation biunivoque
entre les parametres et la matrice des variances
et covariances des variables observables.
Si identification exacte, on a
θ = θ(S) ⇒ Σ = Σ(θ) = S
AQC, EQS, 4/3/2001GR 61
On peut cependant avoir
Sous-identification
Plus de parametres θ que d’elements
independants dans Σ : les parametres θ ne
peuvent pas etre tous quantifies a partir de S.
Sur-identification
Moins de parametres θ que d’elements
independants dans Σ : on ne peut pas generer
n’importe quelle matrice Σ. Les elements de Σ
doivent satisfaire les conditions imposees par
Σ = Σ(θ).
⇒ Σ 6= S
Condition necessaire d’identification
pour le modele sans variables latentes
r ≤ 1
2(p+ q)(p+ q+1)
ou r est le nombre de parametres θ libres.
AQC, EQS, 4/3/2001GR 62
Exemple de modele identifie
Exemple :
y1 = y2+ x1
y2 = β21y1+ ζ2
avec
Cov(x1, ζ2) = 0.
On a
B =
[0 1β21 0
]Γ =
[10
]
Ψ =
[0 00 ψ22
]Φ = [φ11]
et
Σ(θ) =
=
(1−β21)−2(φ11+ψ22)
(1−β21)−2(β21φ11+ψ22) (1−β21)−2(β221φ11+ψ22)
(1−β21)−1φ11 (1−β21)−1β21φ11 φ11
AQC, EQS, 4/3/2001GR 63
Identification : exemple
r = 3, p = 2, q = 1
r = 3 <1
2(p+ q)(p+ q+1) = 6
Condition necessaire satisfaite.
En fait la matrice Σ(θ) est singuliere.
La 1ere equation du modele est une identite :
connaissant deux variables, on en deduit la
troisieme.
(La premiere ligne de Σ(θ) est la somme des
deux autres :
(1− β21)−1φ11 = (1− β21)−2(φ11 − β21φ11) et(1−β21)−1β21φ11 = (1−β21)−2(β21φ11−β221φ11))
Il y a donc une ligne et, par symetrie, une
colonne redondantes dans Σ(θ)
⇒ 3 (=r) elements independants.
⇒ identification exacte possible.
AQC, EQS, 4/3/2001GR 64
Eliminons la 2eme ligne et la 2eme colonne
de Σ(θ)
[Var(y1) sym
Cov(y1, x1) Var(x1)
]=
[(1− β21)−2(φ11 + ψ22) sym
(1− β21)−1φ11 φ11
]
d’ou
φ11 = Var(x1)
β21 = 1− Var(x1)
Cov(x1, y1)
ψ22 =
[Var(x1)
Cov(x1, y1)
]2Var(y1)−Var(x1)
Identification exacte : on a pu expliciter tous les
parametres de Σ(θ).
AQC, EQS, 4/3/2001GR 65
Lorsque B = 0 (p equations independantes) le
modele est toujours identifie.[Σyy(θ) Σyx(θ)Σxy(θ) Σxx(θ)
]=
[ΓΦΓ′+Ψ ΓΦ
ΦΓ′ Φ
]
d’ou
Φ = Σxx
Γ = ΣyxΣ−1xx
Ψ = Σyy −ΣyxΣ−1xxΣxy
AQC, EQS, 4/3/2001GR 66
AMOS
Logiciel d’estimation de modeles EQS
Input :
– Donnees en format SPSS, Excel, dBase,
texte, etc.
– individuelles
– matrice de covariances ou correlation
– Le modele specifie
– graphiquement (module graphique)
– sous formes d’equations (Basics)
Resultats :
– Sur le graphique
– Estimations des coefficients
– Estimations des variances et R2
– Fichier texte ou tableau
– Estimation des parametres (coefficients,
variances et covariances)
– Nombreuses aides a l’evaluation et a
l’interpretation
AQC, EQS, 4/3/2001GR 67
AMOS : options
AMOS offre un grands choix d’options
(procedures d’estimations, aides a l’evaluation,
etc.)
Les options peuvent etre precisees
– Pour une application particuliere :
Menu Set/Analysis Properties
– Comme valeurs de defaut :
En creant un template de defaut
AQC, EQS, 4/3/2001GR 68
Evaluation de l’ajustement
– significativite individuelle des parametres
– R2 pour les variables endogenes (equations)
– ajustement global et pertinence du modele
Significativite individuelle des parametres
ti =θiσθi
Sous les hypotheses de normalite, peut etre
compare au seuil critique de la loi normale
(1.96 pour un test bilateral avec α = 5%).
⇒ θi significatif si ti > 2.
(AMOS : CR)
AQC, EQS, 4/3/2001GR 69
Coefficients de determination
(mesurent la qualite de la prediction des
variables endogenes)
Pour chaque equation explicitant une variable
endogene yj
R2yj
= 1− ψjjσ2yj
=var(yj)
var(yj)
AMOS : $smc ⇒ squared multiple correlation
Pour l’ensemble des equations
R2global = 1− det(Ψ)
det(Σyy)
AMOS : non fourni
AQC, EQS, 4/3/2001GR 70
Ajustement global du modele
(Cas d’un seul groupe, g = 1)
q nbre de parametres libresp nbre d’elements independants de Σn nbre d’observationsθ vecteur des q parametres (AMOS : γ)α(θ) vecteur des p elements de Σ(θ)a vecteur des p elements de S
(moments empiriques)α0 vecteur des p elements de Σ0
(moments de la population)
C = C(α(θ), a)F = F (α(θ), a)C0 = C(α(θ0), α0)F0 = F (α(θ0), α0)
mesures de parcimonie
– q nombre de parametres libres a estimer
– d = p− q degres de liberte
– ddind
ratio de parcimonie
(AMOS : PRATIO)
AQC, EQS, 4/3/2001GR 71
Mesures de l’ecart entre Σ et S (discrepancy)
– C = (n− 1)F ∼ χ2d si modele correct
(AMOS : Cmin)
– p-valeur du test de
H0 : modele correct pour la population.
⇒ devrait etre > 5%.
(AMOS : P)
– Cd devrait etre petit (< 5), E(C/d | H0) = 1
(AMOS : Cmin/DF)
– F = 1(n−1) C
(AMOS : Fmin)
– racine du residu quadratique moyen :
RMR =
√√√√1
p
∑
i
∑
j≤i(σij − sij)2
AQC, EQS, 4/3/2001GR 72
Estimation de l’ecart entre Σ et Σ
Steiger, Shapiro, Brown (1985) ont montre que
sous certaines conditions :
C = (n− 1) F ∼ chi-2 non central
avec non-centralite δ = C0 = (n− 1)F0et d degres de liberte.
δ = C0 est l’ecart entre Σ et Σ.
Modele correct pour population ⇒ δ = 0.
Les mesures ci-dessous estiment cet ecart
AQC, EQS, 4/3/2001GR 73
– δ = max{C − d,0} estimation de δ
(AMOS : NCP)
– F0 =1
n−1 δ estimation de F0
(AMOS : F0)
Pas de penalite pour la complexite (d petit).
Diviser par d pour compenser la complexite ⇒
– Estimation de la racine de l’erreur
quadratique moyenne d’approximation
(RMSEA)
(AMOS : RMSEA)
RMSEA =
√F0d
devrait etre plus petit que 0.08
– p-valeur du test de H0 : RMSEA ≤ 0.05
(modele presque correct pour la population)
devrait etre > 5%
(AMOS : PCLOSE)
AQC, EQS, 4/3/2001GR 74
Mesures d’information
Mesures de la forme C + k q ou F + k q.
Tiennent compte simultanement de
– Mauvaise qualite de l’ajustement (C ou F )
– Complexite (k q)
k constante qui determine l’importance de la
penalite pour la complexite.
Utiles uniquement pour comparer des modeles.
⇒ preferer les petites valeurs.
Indices presentes selon l’importance croissante
accordee a la penalite pour la complexite.
AQC, EQS, 4/3/2001GR 75
– AIC (Akaike, 1973)
AIC = C +2q
– ECVI
ECVI =1
(n− 1)AIC = F +
2q
n− 1
– BCC (Browne-Cudek, 1989)
BCC = C +2q(n− 1)
n− p− 2
– MECVI
MECVI =1
(n− 1)BCC
– CAIC (Bodzogan, 1987) Consistent AIC
CAIC = C + q(ln(n) + 1)
– BIC (Schwartz, 1978, Raftery, 1993) Bayes
Information Criteria
BIC = C + q ln(np)
AQC, EQS, 4/3/2001GR 76
Goodness of Fit (GFI))
C’est la part de S reproduite par Σ.
(σs = 1− s−σ
s = 1− s/σ−1s/σ
)
GFIML = 1−tr((Σ−1S− I)2
)
tr((Σ−1S)2
)
AGFIML = 1−(q(q+1)
2df
)(1−GFIML)
NFI = ∆1 =Cb − Cm
Cb
IFI = ∆2 =Cb − CmCb − dm
RFI = ρ1 =Cb/db − Cm/dm
Cb/db
TFI = ρ2 =Cb/db − Cm/dm(Cb/db)− 1
AQC, EQS, 4/3/2001GR 77
CN : le N critique de Hoelter (1983)
(AMOS : HOELTER)
Plus grande taille d’echantillon pour laquelle on
accepterait l’hypothese que le modele est
correct.
CN =χ2[(1−α),d]F
+1
ne varie pas avec la taille d’echantillon n.
Selon Hoelter, CN devrait etre au moins 200
(g · 200 si g groupes) pour un risque α = 5%
AQC, EQS, 4/3/2001GR 78
Modeles contraints
2 types de contraintes :
1. fixer la valeur de parametres
2. imposer l’egalite de parametres
Dans AMOS, pour fixer valeur d’un parametre
– associer la valeur a l’objet (fleche pour
coefficients de regression, fleche
bidirectionnelle pour covariances, variable
pour variances)
– associer une etiquette (alpha-numerique) a
l’objet et definir la contrainte dans
“manage-models”.
Pour imposer l’egalite entre parametres
– associer la meme etiquette aux objets,
– associer des etiquettes differentes et definir la
(les) contrainte(s) dans “manage-models”.
AQC, EQS, 4/3/2001GR 79
Modeles imbriques
Un modele M est inclus dans le modele M0, s’il
se deduit du modele M0 par l’imposition de
contraintes supplementaires.
SALBEG
EDLEVEL
WORK
v
u1a
b
c
Modele M1 : tous les parametres libres
Modele M2 : a = b
Modele M3 : a = b, c = 0
M2 et M3 inclus dans M1,
M3 inclus dans M2.
AQC, EQS, 4/3/2001GR 80
Comparaison de modeles imbriques
Test de la difference entre M et M0 (M ⊂M0)
sous H0 : M correct si M0 correct,
CminM−M0= CminM − CminM0
∼ χ2dM−M0
ou dM−M0= dM − dM0
⇒ CminM−M0petit ⇔ M ne differe pas
significativement de M0
AQC, EQS, 4/3/2001GR 81
Comparaisons de groupes
AMOS : manage groups
Groupes : sexe, classes d’age, race, etc.
L’estimation simultanee du meme modele
– avec parametres independants pour chaque
groupe
– avec contraintes impliquant des parametres
de differents groupes
permet de tester les differences entre groupes.
Les statistiques concernent l’ensemble des
groupes, soit par exemple le modele :
[Y1 00 Y2
]=
[B1 00 B2
] [Y1 00 Y2
]+
[Γ1 00 Γ2
] [X1 00 X2
]+
[U1 00 U2
]
Certaines statistiques ne sont pas calcules dans
le cas de plusieurs groupes (BIC, CAIC).
AQC, EQS, 4/3/2001GR 82
Groupes : exemple
Groupe 1 : White
SALBEG
EDLEVEL
WORK
v
u1a
b
c
Groupe 2 : Non white
SALBEG
EDLEVEL
WORK
v2
u1a2
b2
c2
4 variables exogenes (observables)
2 variables endogenes (observables) 2 termes
d’erreur
⇒ nbre d’elements independants dans
matrice des moments empiriques :
p∗(1) = p∗(2) = 6 et p = 12
4 coefficients de regressions
6 variances (4 v. exog. + 2 termes d’erreurs)
2 covariances
⇒ nbre de parametres : q = 12
AQC, EQS, 4/3/2001GR 83