57
U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Janvier 2014 U. Paris Ouest L. Ferrara, 2013-14

Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

U. Paris Ouest,

M1 - Cours de Modélisation Appliquée

Modèle de régression linéaire:

cas bivarié

Laurent Ferrara

Janvier 2014

U. Paris Ouest L. Ferrara, 2013-14

Page 2: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Soit 2 variables continues X et Y. On observe les unités

expérimentales : (xi , yi), pour i = 1, …, n.

• 1. Existe-t-il un lien entre X et Y?

• 2. Comment le mesurer ?

• 3. Comment modéliser ce lien?

• 4. Comment estimer les paramètres de ce modèle?

• 5. Comment valider ce modèle ?

• 6. Comment tirer partie de ce modèle pour prévoir les

valeurs d’une variable d’après les valeurs de l’autre?

U. Paris Ouest L. Ferrara, 2013-14

Page 3: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :

les revenus d’un état et le nombre de ses « high-school graduates »?

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

40

45

50

55

60

65

U. Paris Ouest L. Ferrara, 2013-14

Page 4: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Causalité?

Existe-t-il un lien entre :

Le nombre de meurtres et l ’espérance de vie?

Murder

Lif

e E

xp

2 4 6 8 10 12 14

68

69

70

71

72

73

U. Paris Ouest L. Ferrara, 2013-14

Page 5: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer, ou indépendante, ou

exogène

– X est considérée comme la variable explicative, ou dépendante, ou

endogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite

de Y : il existe une erreur aléatoire autour de la valeur

prédite

U. Paris Ouest L. Ferrara, 2013-14

Page 6: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

Estimateur empirique :

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

YX

1

2

1

2

1

)()(

))((

),(

)()(

),(),(

YVXV

YXCovYXc

U. Paris Ouest L. Ferrara, 2013-14

Page 7: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Comment mesurer un lien linéaire?

• Signification :

• Test de Student

– H0 :

– H1 :

baXYqtbaYXc :..,1),(

?1),( YXc

0),( YX

0),( YX

U. Paris Ouest L. Ferrara, 2013-14

Page 8: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Comment mesurer un lien linéaire?

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl

Donc, si

est tq : t* > on rejette H0 au risque

2)),(1(

),(

2 nYX

YX

2/1

2

nt

2)),(1(

),(*

2

nYX

YXt

U. Paris Ouest L. Ferrara, 2013-14

Page 9: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

• Effectuer une analyse graphique au préalable pour identifier

la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une

dépendance linéaire.

> cor(x, y)

[1] 0.99

> cor(x, y2)

[1] 0.246

> cor(x, y3)

[1] 0.854

> cor(x, yexp)

[1] 0.898

U. Paris Ouest L. Ferrara, 2013-14

Page 10: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

yexp

-1 0 1

01

23

45

6

U. Paris Ouest L. Ferrara, 2013-14

Page 11: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Attention au piège : Corrélation fallacieuse

Existence d’un coeff de corrélation non nul entre deux

variables qu’aucune théorie économique, physique … ne

relie.

2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2

phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation - délocalisation aux USA (Application à la France)

U. Paris Ouest L. Ferrara, 2013-14

Page 12: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

empindus

4000,0

4100,0

4200,0

4300,0

4400,0

4500,0

4600,0

4700,0

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution de l’emploi industriel France (Trimestriel 1991-2003)

U. Paris Ouest L. Ferrara, 2013-14

Page 13: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Imports

0,70

0,90

1,10

1,30

1,50

1,70

1,90

2,10

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution des importations de biens en volume France 1991-2003

U. Paris Ouest L. Ferrara, 2013-14

Page 14: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Corrélation = - 0,50, t de Student = 3,99

Conclusion statistique : on rejette l’hypothèse H0 de nullité de

la corrélation linéaire entre les 2 variables

Conclusion économique rapide : les pays à faibles coûts

salariaux détruisent les emplois dans l ’industrie Française

Or, Krugman a montré qu’en fait les destructions d’emplois

industriels étaient causées en partie par la baisse des

dépenses (en valeur) des ménages en produits manufacturés,

liée à la forte hausse de la productivité dans l’industrie par

comparaison avec celle dans les services

U. Paris Ouest L. Ferrara, 2013-14

Page 15: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

On remarque également que les coefficients de corrélation

entre chacune des variables et le temps sont de :

-0,75 pour l’emploi industriel

0,94 pour les imports

Exercice :

Proposer des exemples de corrélation fallacieuse

U. Paris Ouest L. Ferrara, 2013-14

Page 16: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Attention au piège :

Un coeff de corrélation nul ne signifie pas que les variables

sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments

d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

U. Paris Ouest L. Ferrara, 2013-14

Page 17: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la

loi jointe.

Si celle-ci n’est pas calculable: concept de copules

U. Paris Ouest L. Ferrara, 2013-14

Page 18: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?

• Exemple : taux longs souverains / dette publique brute

U. Paris Ouest L. Ferrara, 2013-14

Page 19: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogène

iy Est la valeur ajustée (estimée) de la ième observation

Equation de la meilleure

droite d’ajustement: ii xbby 10ˆ

U. Paris Ouest L. Ferrara, 2013-14

Page 20: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Erreur de prévision

(ou erreur résiduelle)

En utilisant iy pour prédire ,

iy

on fait une erreur de prévision:

iii yye ˆ

La droite d’ajustement qui colle le mieux aux

données est celle pour laquelle les n erreurs de

prévisions sont les plus petites possibles au sens

d’un certain critère. U. Paris Ouest L. Ferrara, 2013-14

Page 21: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Critère des “Moindres Carrés”

Choisir les valeurs b0 et b1 qui minimise la somme

des carrés des erreurs.

Equation de la droite : ii xbby 10ˆ

i.e. : minimiser:

2

1

ˆ

n

i

ii yyQU. Paris Ouest L. Ferrara, 2013-14

Page 22: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre

pour b0 et b1):

2

1

10

n

i

ii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

n

i

i

n

i

ii

xx

yyxx

b

1

2

11ˆ xbyb 10

ˆˆ

U. Paris Ouest L. Ferrara, 2013-14

Page 23: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance

quadratique entre les points et les projections orthogonales

de ces points sur cette droite.

• la droite de régression est celle qui maximise la variance du

nuage de points projetés orthogonalement sur cette droite.

U. Paris Ouest L. Ferrara, 2013-14

Page 24: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

yi = b0 + b1 xi + i , pour i=1,…,n

• H2 : Les erreurs, i, sont indépendantes entre elles

• H3 : E(i) = 0, les erreurs sont d’espérance nulle

(en moyenne le modèle est bien spécifié)

U. Paris Ouest L. Ferrara, 2013-14

Page 25: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

• H4 : E(2i) = 2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d ’homoscédasticité)

• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X

• H6 : Hypothèse de Normalité

Les erreurs, i, sont identiquement distribuées selon la loi Normale.

U. Paris Ouest L. Ferrara, 2013-14

Page 26: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Estimation des paramètres

Quels paramètres ? b0 , b1 , 2

estimés par MCO

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2

10ˆ,ˆ,ˆ bb

10ˆ,ˆ bb

2

U. Paris Ouest L. Ferrara, 2013-14

Page 27: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

La MSE est définie par :

On pondère par le nombre de degrés de liberté du modèle

défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

2

ˆ

ˆ 1

2

2

n

YY

MSE

n

i

ii

U. Paris Ouest L. Ferrara, 2013-14

Page 28: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :

• On montre que :

Donc

00 )ˆ( bbE 11)ˆ( bbE

n

i

i Xx

bV

1

2

2

1

)(

ˆ)ˆ(

nsibV 0)ˆ( 1

U. Paris Ouest L. Ferrara, 2013-14

Page 29: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Loi asymptotique des paramètres

• De même,

n

i

i Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ(

nsibV 0)ˆ( 0

U. Paris Ouest L. Ferrara, 2013-14

Page 30: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,

estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la

variance empirique (valable pour tout échantillon qui suit le

modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les

valeurs de Y s ’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

U. Paris Ouest L. Ferrara, 2013-14

Page 31: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Exemple : 2 précisions différentes

U. Paris Ouest L. Ferrara, 2013-14

Page 32: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Remarques

• Quel est le but du jeu de toute tentative de modélisation

d’une variable Y ?

Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) +

Par indépendance, V(Y) = V(f(X)) + V()

(Voir partie « Analyse de la Variance »)

U. Paris Ouest L. Ferrara, 2013-14

Page 33: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

U. Paris Ouest L. Ferrara, 2013-14

Page 34: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

(1-) IC pour la pente

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations:

22,

211

ˆˆ

Xx

tb

i

n

1b

U. Paris Ouest L. Ferrara, 2013-14

Page 35: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Test sur la pente

Null hypothesis H0: 1 = (en général =0)

Alternative hypothesis H1: 1 ≠ (en général 0)

1

1

2

1*bse

b

xx

MSE

bt

i

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à

comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

1b

U. Paris Ouest L. Ferrara, 2013-14

Page 36: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Formule en notations:

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

2

2

2,2

10

1ˆˆ

Xx

x

ntb

i

n

0b(1-) IC pour la constante

U. Paris Ouest L. Ferrara, 2013-14

Page 37: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Null hypothesis H0: 0 = (en général = 0)

Alternative hypothesis HA: 0 ≠ (en général 0)

P-value = Risque maximum d’accepter H1 à tort

(à comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

0

0

2

2

0

1

*bse

b

xx

x

nMSE

bt

i

Test statistic

Test sur la constante 0b

U. Paris Ouest L. Ferrara, 2013-14

Page 38: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés

sur la Normalité du terme d’erreur. Il importe

donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi

Normale si l’échantillon est grand. (résultats

asymptotiques) U. Paris Ouest L. Ferrara, 2013-14

Page 39: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

> w.fit <- lm(weight ~ 1 + height)

> summary(w.fit)

Call: lm(formula = weight ~ 1 + height)

Residuals:

Min 1Q Median 3Q Max

-13.2 -4.08 -0.0963 4.64 14.2

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -266.534 51.032 -5.223 0.001

height 6.138 0.735 8.347 0.000

Residual standard error: 8.64 on 8 degrees of freedom

Multiple R-Squared: 0.897

> resid(w.fit)

1 2 3 4 5 6 7 8 9 10

-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4

Exemple : Poids / Taille

U. Paris Ouest L. Ferrara, 2013-14

Page 40: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. :

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

n

i

ie1

0

n

i

n

i

ii yy1 1

ˆ

U. Paris Ouest L. Ferrara, 2013-14

Page 41: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

i

i

i

i

i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée

U. Paris Ouest L. Ferrara, 2013-14

Page 42: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

• R2 : mesure de la variance expliquée

valeur entre 0 et 1

• Critères d’information : Akaike (1971)

n

i

i YY

R

1

2

22

)(

ˆ1

U. Paris Ouest L. Ferrara, 2013-14

Page 43: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

U. Paris Ouest L. Ferrara, 2013-14

Page 44: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

est le meilleur estimateur dans chaque cas. hh xbbY 10

ˆ

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier

U. Paris Ouest L. Ferrara, 2013-14

Page 45: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Intervalle de confiance pour la

réponse moyenne de la population

E(Yh)

U. Paris Ouest L. Ferrara, 2013-14

Page 46: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Formule en notation:

Formule en mots:

Sample estimate ± (t-multiplier × standard error)

2

2

2

2,2

1

1ˆˆ

Xx

Xx

nty

i

h

nh

(1-) IC pour la réponse moyenne

E(Yh)

U. Paris Ouest L. Ferrara, 2013-14

Page 47: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus

l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.

• Suivant le même échantillon de xi, au plus la

valeur de xh est loin de la moyenne empirique, au

plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

U. Paris Ouest L. Ferrara, 2013-14

Page 48: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Remarques

• xh est une valeur correspondant au champ de l’étude

mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme

d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour

E(Yh) est correct même si le terme d’erreur s’écarte

fortement d’une loi Normale

U. Paris Ouest L. Ferrara, 2013-14

Page 49: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)

$fit:

1 2

102 224

$se.fit:

1 2

7.36 8.33

$residual.scale:

[1] 8.64

$df:

[1] 8

$ci.fit:

lower upper

1 84.7 119

2 205.3 244

attr(, "conf.level"):

[1] 0.95

Exemple : Estimation du poids moyen pour 2 tailles données

(60, proche de la moyenne, et 80, plus élevée que la moyenne)

U. Paris Ouest L. Ferrara, 2013-14

Page 50: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Intervalle de Prévision pour la

réponse Yh(new) à une nouvelle

valeur xh(new)

U. Paris Ouest L. Ferrara, 2013-14

Page 51: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Prévision de Yh(new)

si la moyenne E(Y) n’est pas connue

ie : si les paramètres sont estimés

on rajoute une incertitude sur la moyenne

de Y

U. Paris Ouest L. Ferrara, 2013-14

Page 52: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

La prévision est non biaisée

hh xbbY 10

ˆˆˆ

hh

hhh

hhh

xbbbb

xbbxbb

YYe

)ˆ()ˆ(

)ˆˆ(

ˆ

1100

1010

Propriété:

0)( heE

U. Paris Ouest L. Ferrara, 2013-14

Page 53: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Variance de la prévision

n

i

i

h

n

i

i

h

xx

xx

nxx

xx

n

1

2

2

2

1

2

2

22 11ˆ

1ˆˆ

Estimation:

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

U. Paris Ouest L. Ferrara, 2013-14

Page 54: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Sample prediction ± (t-multiplier × standard error)

2

2

2

2,2

1

11ˆˆ

xx

xx

nty

i

h

nh

(1-) IC pour la réponse Yh

U. Paris Ouest L. Ferrara, 2013-14

Page 55: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

504030

250

150

50

Latitude

Mo

rtalit

yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

95% PI

95% CI

Regression

Regression Plot

U. Paris Ouest L. Ferrara, 2013-14

Page 56: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Exemple d’application

Loi d’Okun (1962)

Relation entre marché du travail et production

• Différentes versions existent dans la littérature, ex:

• Voir exemple sous RATS

U. Paris Ouest L. Ferrara, 2013-14

Page 57: Aucun titre de diapositive - University of Ferraralo.ferrara.free.fr/ModelesEco_Regression_P10_M1_fev14.pdf · 2014. 1. 19. · Title: Aucun titre de diapositive Author: ferrara Created

Exemple d’application

• Taux de croissance du PIB et Emploi privé US

U. Paris Ouest L. Ferrara, 2013-14