7. Notions de Statistique - STAT homestat · La pente donne une estimation du param`etre de dispersion de la loi, et le point d’intersection avec la droite x = 0 donne une estimation

http://statwww.epfl.ch

7. Notions de Statistique7.1: Introduction

7.2: Analyse graphique

7.3: Notions de base: lois d’echantillonage

7.4: Proprietes d’estimateurs

7.5: La quantification de l’incertitude

7.6: Les tests statistiques

References: Davison (2003, Chapitre 1, §§2.1, 2.2, 3.1, 3.2, 7.1.1,

7.3.1); notes de Ben Arous (§§VI.1, VI.2, VI.4–VI.9).

Exercices: (121), 129, 130, 131, (132), 134, du Recueil d’exercices;

2, (3), 4, 11, 19, 21, 22, 24, (25), (29) du Complements d’exercises.

Probabilite et Statistique I/II — Chapıtre 7 1


Petit Vocabulaire Statistique

Mathematics English Francais

y = (y1, . . . , yn) (observed) data, sample donnees (observees), echantillon observe

dataset un jeu de donnees

Y = (Y1, . . . , Yn) random sample echantillon aleatoire

F, f probability model, statistical model loi de probabilite, modele statistique

θ, µ, σ2, . . . parameter un parametre

T = t(Y ) estimator estimateur

t = t(y) estimate estimation

Q = q(Y, θ) pivot un pivot

(BI , BS) confidence interval intervalle de confiance

tν Student t distribution loi de Student avec ν degres de liberte

with ν degrees of freedom

χ2ν chi-squared distribution loi chi-deux avec ν degres de liberte

with ν degrees of freedom



Idees clees — 26 avril 2004

On peut beaucoup voir siemplement en regardant — ‘you can see a

lot just by looking’.

Avec un modele probabiliste, les donnees ainsi que les quantites

calculees avec ces dernieres pourront etre differentes—Statistique

signifie ‘ne jamais devoir dire qu’on est certain’.



7.1 Introduction

Les statistiques se rapporte a ce qui peut etre deduit des donnees par

la recherche scientifique, idealement en tant que partie du cycle

experimental qui peut etre divise en quatre etapes :

Planifier

ր ցPrevoir Agir

տ ւAnalyser

la reflexion statistique/probabiliste peut jouer un role a chaque

etape. Souvent le cycle doit etre reitere jusqu’a ce que l’on stoppe la

recherche.



Planifier: En se basant sur les connaissances actuelles du probleme,

on decide quelles donnes doivent etre prelever et comment.

Agir: Nous recueillons les donnees en realisant une experience, en

menant une etude, . . .

Analyser: Nous analysons les donnees afin de voir si nous avons

obtenu une reponse a notre question initiale.

Prevoir: Nous mettons a jour nos connaissances, et les utilisons

pour savoir a quoi nos donnees futures pourraient ressembler.

On suppose qu’une partie de la variation des donnees est due au

hasard, de sorte que les idees probabilistes puissent etre appliquees.

La difficulte est de distinguer la variation systematique (signal,

generalement interessant ) de la variation purement aleatoire (bruit,

souvent ininteressant).



La Variation et l’Incertitude

La variabilite est omnipresente, et on doit en tenir compte dans nos

modeles mathematiques. On la divise en deux types: la variation

systematique, et la variation aleatoire.

La variation systematique represente souvent des effets d’interet

scientifique potentiel . On cherche a la quantifier et a l’expliquer.

Souvent la variation aleatoire represente des effets qui n’ont pas

d’interet direct, mais qui sont essentiels pour avoir des modeles

realistes.

Idee cle: On modelise la variation aleatoire par des lois de

probabilite, dont les parametres resument les aspects systematiques.

On transforme la variation aleatoire des donnees en des expressions

d’incertitude se rapportant aux parametres.



7.2 Analyse Graphique

Pour le moment nous allons supposer que les donnees sont deja

disponibles, et qu’il faut en tirer de l’information.

Planifier

ր ցPrevoir Agir

տ ւAnalyser

Tout d’abord on peut essayer de comprendre les donnees a l’aide de

graphiques. Souvent on n’a pas besoin d’aller plus loin, car ils aident

a la visualisation et la comprehension du probleme. Ils sont tres

utiles aussi pour expliquer nos conclusions aux autres.



Exemple

On utilisera les donnees issues des questionnaires que vous avez

rempli. ( n = 36 )

Height Hand Sex Weight Month Test

1 194 23 M 75 3 5.0

2 184 24 M 75 7 4.0

3 175 21 M 65 6 4.5

...

Il y a beaucoup des graphiques familiers, dont . . .



L’histogramme

Utile pour visualiser la forme de la densite des donnees y1, . . . , yn.

On choisit a, b, N tels que a < min{yj} < max{yj} < b, on pose

δ = (b − a)/N , on divise l’axe en intervalles disjoints

I1 = [a, a + δ), I2 = [a + δ, a + 2δ), . . . , IN = [a + (N − 1)δ, b),

et on trace une ligne horizontale d’hauteur #{yj ∈ Ir}/(nδ)

au-dessus de Ir.

Le ‘tapis’ en bas montre les yj .

C’est une densite empirique qui depend des choix de a et de N ,

comme on peut le voir sur les graphiques suivants . . .



Height

Den

sity

150 170 190

0.00

0.02

0.04

Height

Den

sity

150 170 190

0.00

0.02

0.04

Height

Den

sity

150 170 190

0.00

0.02

0.04

Height

Den

sity

150 170 190

0.00

0.02

0.04

Height

Den

sity

150 170 190

0.00

0.02

0.04

Height

Den

sity

150 170 190

0.00

0.04

0.08



Fonction de Repartition Empirique

Soit

F (y) =1

n

n∑

j=1

I(yj ≤ y).

C’est une fonction en escalier qui augmente de 1/n en chaque yj .

Le graphique ci-dessous montre F pour les hauteurs, ainsi qu’une

fonction de repartition normale.

La ‘densite’ correspondante affecte une probabilite de 1/n sur chacun

des yj : c’est une tres mauvaise representation de la densite d’une

variable continue.



150 170 190

0.0

0.2

0.4

0.6

0.8

1.0

Height (cm)

Em

piric

al C

DF

150 170 190

0.0

0.2

0.4

0.6

0.8

1.0

Height (cm)E

mpi

rical

CD

F



Estimation par noyau

C’est une representation de la densite empirique d’un echantillon:

f(y) =1

n

n∑

j=1

1

hK

(y − yj

h

),

ou K(x) est une densite de probabilite, symetrique autour de x = 0

et de variance 1: par exemple K = φ.

f est donc une somme des contributions de chacun des yj , ponderee

par une fonction de y − yj . Ceci depend du ‘bandwidth’ h > 0, qui

controle la largeur des contributions des yj . Plus h est grand, plus f

est lisse et plate, et inversement.

Le graphique ci-dessous montre f pour les hauteurs, pour un h

‘optimal’ (a gauche), ainsi que pour d’autres valeurs (a droite).



140 160 180 200 220

0.00

0.02

0.04

h=3.7

Height (cm)

Den

sity

140 160 180 200 220

0.00

0.02

0.04

h=10 (black), 5 (blue), 2 (red)

Height (cm)

Den

sity

Exercise : Montrer que f(y) est une densite de probabilite pour

tout h > 0 et y1, . . . , yn, et decrire son comportement lorsque h → 0.



Quantile-quantile (Q-Q) plots

Une maniere pour comparer deux echantillons x1, . . . , xn et

y1, . . . , yn. On trace le graphique de leurs statistiques d’ordre

(x(1), y(1)), (x(2), y(2)), . . . , (x(n), y(n)).

Si ceci forme une droite, alors les echantillons ont la meme forme.

Soit x(j) le j/(n + 1)-quantile d’une loi theorique (normale,

exponentielle, . . .); On appelle ces x(j) des plotting positions.

Example 7.1: Trouver les ‘plotting positions’ de la loi exp(1). •

Example 7.2: Trouver les ‘plotting positions’ de la loi N(0, 1). •



Plus le graphe se rapproche d’une droite, plus les donnees

ressemblent a un echantillon issu de la loi consideree.

La pente donne une estimation du parametre de dispersion de la loi,

et le point d’intersection avec la droite x = 0 donne une estimation

du parametre de position, si cette intersection existe.

Il est difficile de tirer des conclusions fortes d’un tel graphique quand

n est petit, car la variabilite est alors grande — on a tendance a

sur-interpreter,a voir des choses qui n’existent pas.



0.0 1.0 2.0 3.0

160

170

180

190

Exponential Q−Q plot

Exponential plotting positions

Hei

ght (

cm)

−2 −1 0 1 2

160

170

180

190

Normal Q−Q Plot

Normal plotting positionsH

eigh

t (cm

)



n = 36: quel echantillon n’est pas normal?

−2 −1 0 1 2

165

175

185

Normal plotting positions

Hei

ght (

cm)

−2 −1 0 1 2

160

170

180

190


Hei

ght (

cm)

−2 −1 0 1 2

160

170

180

190


Hei

ght (

cm)

−2 −1 0 1 2

165

175

185


Hei

ght (

cm)

−2 −1 0 1 2

160

170

180

190


Hei

ght (

cm)

−2 −1 0 1 2

165

175

185


Hei

ght (

cm)




−2 0 1 2

150

170

190

210


Hei

ght (

cm)

−2 0 1 2

150

170

190

210


Hei

ght (

cm)

−2 0 1 2

150

170

190

210


Hei

ght (

cm)

−2 0 1 2

150

170

190

210


Hei

ght (

cm)

−2 0 1 2

150

170

190

210


Hei

ght (

cm)

−2 0 1 2

150

170

190

210


Hei

ght (

cm)




−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)

−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)

−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)

−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)

−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)

−3 −1 1 2 3

150

170

190

210


Hei

ght (

cm)



Le ‘boxplot’

On utilise les boxplots pour comparer des groupes distincts de

nombres semblables. Le but est de donner une bonne idee du centre,

de la variabilite, et de la forme des donnees, et de mettre en evidence

les valeurs aberrantes de maniere claire.

Soit IQR (‘interquartile range’) la difference entre les deux quartiles:

IQR = y(⌈3n/4⌉) − y(⌈n/4⌉).

La ligne centrale represente la mediane, les limites du ‘box’ les

quartiles, la limite superieure des valeurs adjacentes, (‘whiskers’ )

l’observation la plus grande mais plus petit ou egale au 0.75 quantile

plus 1.5IQR.

Les valeurs les plus extremes sont considerees comme des valeurs

aberrantes potentielles et sont representees individuellement.



F M

160

170

180

190

Sex

Hei

ght

All Questionnaire

23

45

6

StatusM

ark

for

test

1



Le ‘scatterplot’

On utilise un ‘scatterplot’ quand on veut comprendre soit comment

varie une variable y comme fonction d’une variable x, soit comment

varient (x, y) ensemble: c’est le graphique qui represente les paires

(x1, y1), . . . , (xn, yn).



160 170 180 190

1015

20

Height (cm)

Han

d w

idth

(cm

)

160 170 180 190

23

45

6

Height (cm)F

irst t

est



Commentaires

Les idees probabilistes suggerent comment construire de tels

graphiques, mais elles ne sont pas essentielles: on peut considerer ces

graphiques comme des resumes des donnees purs et simples, aidant a

visualiser et ainsi a comprendre leur structure.

Pour aller plus loin, on a besoin d’introduire des notions probabilistes

explicites.



7.3 Notions de base

On va supposer que les donnees y1, . . . , yn, que nous appellons

l’echantillon, forment une realisation des variables aleatoires

Y1, . . . , Yn issues d’une loi de probabilite F decrivant la population.

On suppose souvent que Y1, . . . , Yniid∼ F : c’est un echantillon

aleatoire issu de F .

Si F est determine par un parametre de dimension fini, c’est un

modele parametrique, sinon il est non parametrique. La plupart

de nos modeles seront parametriques.

D’une maniere generique nous noterons les donnees y ≡ (y1, . . . , yn)

et les variables aleatoires correspondantes Y ≡ (Y1, . . . , Yn).



Definition: Une statistique t est une fonction des donnees:

t = t(y). La variable aleatoire correspondante est notee T = t(Y ).

Example 7.3: Prenons les donnees sur vos hauteurs:

y1 = 160, y2 = 169, . . . , y36 = 183.

Le Q-Q plot suggere qu’elles sont issues d’une loi normale. Soit

F (y) = Φ{(y − µ)/σ}: un modele parametrique de parametre (µ, σ)

de dimension 2. Des exemples de statistiques sont

y =1

n

n∑

j=1

yj = 177.17cm, median{yj} = 178cm,

s2 =1

n − 1

n∑

j=1

(yj − y)2 = 71.69cm2, IQR = 11.75,

ainsi que le Q-Q plot, etc. •



Statistiques de position et de dispersion

Des statistiques telles que la moyenne et la mediane d’un echantillon

mesurent sa position: ou se trouve son centre.

Des statistiques telles que la variance d’un echantillon et l’IQR

mesurent sa dispersion: la variabilite des donnees.

Considerer l’effet d’une transformation yj 7→ a + byj (changement

d’unites de mesure, b 6= 0) sur ces statistiques:

y 7→ a + b y, s 7→ b s.

Example 7.4: Etablir ces proprietes. •

Exercise : Montrer que sous la transformation yj 7→ a + byj , on a

median{yj} 7→ a + b median{yj}, IQR 7→ b IQR. •



Parenthese: Statistiques de forme

On peut aussi definir des mesures de la forme (‘shape’) des donnees,

telles que

k3 =n−1

∑(yj − y)3

s3/2ou k′

3 =y(⌈0.95n⌉) − y(⌈0.5n⌉)

y(⌈0.5n⌉) − y(⌈0.05n⌉),

qui mesurent l’asymetrie de y1, . . . , yn.

Exercise : Montrer que k3, k′3 sont invariantes aux changements

y 7→ a + by, sauf a un changement de signe eventuel. Quelles seront

leurs valeurs pour un echantillon symetrique? •



Les estimateurs

Definition: Soient Y = (Y1, . . . , Yn) issues d’une loi F de parametre

θ. Un estimateur T = t(Y ) est une statistique construite pour

estimer la valeur de θ. Sa valeur t = t(y) est appelee l’estimation de

θ.

Definition: Si la statistique V est un estimateur de var(T ), on

appelle V 1/2 (egalement sa valeur v1/2) ecart-type de T —

l’ecart-type v1/2 mesure la precision de l’estimation t.

Example 7.5: Soient Y1, . . . , Yniid∼ (µ, σ2), donner des estimateurs

de µ, σ2, σ, et un ecart-type pour l’estimateur de µ. •

Example 7.6: Soient Y1, . . . , Yniid∼ N(µ, σ2), construire des

estimateurs de µ, σ a partir de la mediane T et l’IQR. Sous quelles

conditions seront-t-ils preferables a Y , S? •



Rappel: Quantiles de l’Echantillon (Ch 6, page 33)

Definition: Soient X1, . . . , Xniid∼ F , et 0 < p < 1. Alors la p

quantile de l’echantillon de X1, . . . , Xn est la reme statistique

d’ordre X(r), ou r = ⌈np⌉.Theorem (Loi asymptotique des statistiques d’ordre): Soient

0 < p < 1, X1, . . . , Xniid∼ F , et xp = F−1(p). Alors si f(xp) > 0,

X(⌈np⌉) − xp

[p(1 − p)/{nf(xp)2}]1/2

D−→ N(0, 1) lorsque n → ∞.

Ceci implique que

X(⌈np⌉).∼ N

(xp,

p(1 − p)

nf(xp)2

).



Rappel: Combinaison de suites convergentes (Ch 6, page 11)

Theorem : Soient x0, y0 des constantes reelles, soient

X, Y, {Xn}, {Yn} des variables aleatoires. Alors

XnD−→ x0 ⇒ Xn

P−→ x0,

XnD−→ X and Yn

P−→ y0 ⇒ Xn + YnD−→ X + y0, XnYn

D−→ Xy0.

La seconde ligne est connue sous le nom de lemme de Slutsky. Il est

tres utile lors d’applications statistiques.

Le graphique suivant montre la variation des quartiles empiriques,

X(⌈n/4⌉) et X(⌈3n/4⌉) et le comportement de l’IQR pour les

echantillons normals de taille n.



0 5 10 15 20

−3

−2

−1

01

23

n=20

Ord

ered

sam

ple

0 5 10 15 20

−3

−2

−1

01

23

n=100

Ord

ered

sam

ple

0 5 10 15 20

−3

−2

−1

01

23

n=500

Ord

ered

sam

ple

20 50 100 500 1000 5000

1.0

1.5

2.0

Sample size

IQR



Lois d’echantillonnage

Si les donnees y sont issues d’une loi F , elles auraient pu etre

differentes. Donc toute statistique t = t(y) peut etre consideree

comme une realisation d’une variable aleatoire T = t(Y )

correspondante. La loi de cette statistique est appelee sa loi

d’echantillonnage.

Example 7.7: Soient Y1, . . . , Yniid∼ N(µ, σ2), trouver la loi

d’echantillonnage de la moyenne Y . •

Example 7.8: Soient Y1, . . . , Yniid∼ exp(λ), trouver la loi de Y . •

Illustration:

http://www.ruf.rice.edu/%7Elane/stat_sim/sampling_dist/index.html



7.4 Proprietes des estimateurs

Comment comparer plusieurs estimateurs pour un parametre donne?

Definition: Un estimateur T = t(Y1, . . . , Yn) d’un parametre θ est

consistant si TP−→ θ quand n → ∞: c’est a dire que pour tout

ε > 0,

P(|T − θ| > ε) → 0, n → ∞.

Ceci est une propriete minimale: on doit pouvoir connaitre le

parametre quand n = ∞! Mais il faut aussi des criteres pour des

echantillons de taille plus realiste.

Est-ce que T est proche a θ?

Definition: Le biais d’un estimateur T d’un parametre θ est

b(θ) = E(T ) − θ. Si b(θ) = 0 pour tout θ alors T est non-biaise.



Definition: Le risque quadratique ou erreur quadratique

moyenne de T mesure son ecart carre moyen de θ;

rT (θ) = E{(T − θ)2

}= b(θ)2 + var(T ).

Plus rT est grand, plus T est mauvais.

Example 7.9: Soient Y1, . . . , Yniid∼ N(µ, σ2), montrer que Y est

consistant pour µ, et calculer son risque quadratique. •

Example 7.10: Soient Y1, . . . , Yniid∼ exp(λ) et a > 0 constant,

calculer le risque quadratique de T = a/∑

Yj en tant qu’estimateur

de λ, et le minimiser par rapport a a. •

Un estimateur T1 de θ est preferable a un autre estimateur T2 de θ en

terme de risque quadratique si rT1(θ) ≤ rT2(θ) pour tout θ, avec

inegalite stricte pour au moins une valeur de θ.



Example 7.11: Soient Y1, . . . , Yniid∼ N(µ, σ2), comparer la moyenne

Y et la mediane T en tant que estimateurs de µ pour n grand. •

La robustesse d’un estimateur aux valeurs aberrantes (mauvaises

donnees, fautes de frappe ou d’instrumentation, . . .) ou aux

hypotheses de modele est aussi une propriete importante.

Example 7.12: Decrire les effets sur y et la mediane t d’une faute

de frappe qui ajoute c a y1.

Calculer les risques quadratiques approximes de Y et T quand la loi

sous-jacente est Laplace. •

Exercise : Soient Y1, . . . , Yniid∼ N(µ, σ2), sachant que E(S2) = σ2,

var(S2) = 2σ4/(n − 1), comparer les risques quadratiques de S2 et de

(n − 1)S2/n en tant qu’estimateurs de σ2. •



7.5 La quantification de l’incertitude

On a des donnees y1, . . . , yn supposees etre une realisation d’un

echantillon aleatoire Y1, . . . , Yn issu d’une loi parametrique F .

Par exemple, les donnees sur vos hauteurs sont

y1 = 160, y2 = 169, . . . , y36 = 183,

nous donnant y = 177.17cm, median{yj} = 178cm, s2 = 71.69cm2.

Soient Y1, . . . , Yniid∼ N(µ, σ2), alors F (y) = Φ{(y − µ)/σ}.

Qu’est-ce que nous pouvons dire de µ ou de σ, a partir de y1, . . . , yn

et l’hypothese d’un modele normal?

On va essayer de donner un intervalle dans lequel il est raisonnable

de trouver le parametre.



Idee de Base

Prenons le cas d’un estimateur T d’un parametre θ, tel que

T ∼ N(θ, τ2).

Alors il est aussi probable que T soit a droite et a gauche de θ, et

donc il semble raisonnable de prendre un intervalle de confiance

(IC) de forme

T ± cτ,

symetrique autour de T .

Comment choisir c?



Puisque (T − θ)/τ ∼ N(0, 1), l’intervalle avec c = zα/2 va contenir θ

avec probabilite (1 − α), par le raisonnment suivant:

P (T − cτ ≤ θ ≤ T + cτ) = P (−cτ ≤ θ − T ≤ cτ)

= P

(−c ≤ θ − T

τ≤ c

)

= P

(c ≤ T − θ

τ≤ −c

)

= Φ(−c) − Φ(c)

= 1 − α/2 − α/2

= 1 − α

si c = zα/2, et en se rappellant que −zα/2 = z1−α/2 car la densite

N(0, 1) est symetrique.

Definition: La valeur (1 − α) s’appelle le niveau de l’IC.



Interpretation

L’interpretation d’un IC se fait par rapport a une suite imaginaire de

jeux de donnees generes sous les memes conditions que le jeu observe.

Si c’etait possible de calculer les ICs correspondants, on trouverait

que la proportion de ceux contenant θ serait (1 − α). Donc si nous

considerons que notre jeu est choisi au hasard parmi tous les jeux,

notre IC contient θ avec probabilite (1 − α). Cette interpretation

depend de la plausibilite de l’hypothese qu’une telle suite de jeux

existe.

Note: Plus α → 0, plus il est probable que l’intervalle contienne θ.

Example 7.13: Calculer les IC de niveaux 0.9, 0.95, et 0.99 pour la

moyenne µ des hauteurs, en supposant que σ =√

71.69 = 8.47.

Donner leurs interpretations. •



z 0 1 2 3 4 5 6 7 8 9

0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586

0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56750 .57142 .57535

0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409

0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173

0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793

0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240

0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490

0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524

0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327

0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891

1.0 .84134 .84375 .84614 .84850 .85083 .85314 .85543 .85769 .85993 .86214

1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298

1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89617 .89796 .89973 .90147

1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774

1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92786 .92922 .93056 .93189

1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408

1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449

1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327

1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062

1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670

2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169



Des IC approximatifs

Des ICs exacts sont rares, et en general on construit des ICs

approximatifs a l’aide du theoreme central limite. Rappelons que la

plupart des statistiques se basant sur les moyennes (implicites ou

explicites) des variables Y = (Y1, . . . , Yn) ont des lois normales pour n

grand. Si T = t(Y ) est un estimateur de θ avec ecart-type√

V , et si

T.∼ N(θ, V ),

alors (T − θ)/√

V.∼ N(0, 1). Ainsi

P{

zα/2 < (T − θ)/√

V ≤ z1−α/2

}.= Φ(z1−α/2) − Φ(zα/2) = 1 − α,

impliquant qu’un IC de niveau a peu pres (1 − α) pour θ est

(T −√

V z1−α/2, T −√

V zα/2).



Cadre General

Considerons maintenant la construction generale des ICs.

Definition: Soient Y = (Y1, . . . , Yn) des donnees issues d’une loi

parametrique F avec parametre θ. Alors un pivot est une fonction

Q = q(Y, θ) dont la loi est connue et qui ne depend pas de θ. On dit

alors que Q est pivotale.

Example 7.14: Soient Y1, . . . , Yniid∼ exp(λ), montrer que Q = Y λ

est un pivot. •

Example 7.15: Soient Y1, . . . , Yniid∼ N(µ, σ2) et σ2 connu, montrer

Q1 = q1(Y, µ) = n1/2(Y − µ)/σ est un pivot.

Si σ2 est inconnu, montrer que Q2 = n1/2(Y − µ)/S et Q3 = S2/σ2

sont des pivots. •



Les intervalles de confiance

Definition: Soient Y = (Y1, . . . , Yn) des donnees issues d’une loi

parametrique F de parametre θ scalaire. Un intervalle de

confiance (BI , BS) pour θ est une statistique sous forme

d’intervalle qui contient θ avec un probabilite specifiee. Cette

probabilite s’appelle le niveau de l’intervalle.

Si

P (BS ≤ θ) = αS , P (θ < BI) = αI ,

alors

P (BI ≤ θ < BS) = 1 − αS − αI ,

et le niveau de (BI , BS) est de 1 − αS − αI . Souvent en pratique on

prend αI = αS = α/2, donnant un intervalle bilaterale de niveau

(1 − α), et on dit que c’est un IC a (1 − α) × 100%.



Calcul d’un IC via un pivot

Soit Q = q(Y, θ) un pivot, alors ses quantiles qαI, qαS

sont connus, au

moins en principe. Supposons que l’equation

q(Y, θ) = q′

a une solution θ′ = q−1(Y, q′) pour tout Y , et que cette solution est

decroissante en q′. Alors

αS − αI = P {qαI≤ q(Y, θ) ≤ qαS

}= P

{q−1(Y, qαI

) ≥ θ ≥ q−1(Y, qαS)}

;

alors

(BI , BS) =(q−1(Y, qαS

), q−1(Y, qαI))

est un IC de niveau αS − αI pour θ. Si αS = 1 − α/2, αI = α/2,

alors le niveau est (1 − α).



Loi Normale

Soient Y1, . . . , Yniid∼ N(µ, σ2), et supposons que σ2 est connue. Alors

Q =Y − µ√

σ2/n∼ N(0, 1)

est pivotale, soient zα, z1−α/2 ses quantiles. Les solutions aux

equations

Y − µ√σ2/n

= zαI, zαS

sont Y − σ/n1/2zαI, Y − σ/n1/2zαS

, et l’IC pour µ de niveau (1 − α)

est donc (BI , BS) =(Y − σ/n1/2z1−α/2, Y − σ/n1/2zα/2

),

la formule deja obtenue, avec T = Y et τ2 = σ2/n.



Variance σ2 inconnue

Soient Y1, . . . , Yniid∼ N(µ, σ2), avec µ et σ2 inconnus, alors

Q = n1/2(Y − µ)/S

est un pivot, dont la loi s’appelle la loi de Student (‘Student t

distribution’) avec ν = n − 1 degres de liberte : on ecrit Q ∼ tn−1.

Le panneau a droite ci-dessous montre la densite de Student pour des

degres de liberte ν = 1, 2, 4, 20,∞, de bas en haut.

Le cas ν = ∞ donne la densite normale, ν = 1 la loi de Cauchy.

Le panneau a gauche montre la densite chi-deux (χ2ν) de degres de

liberte ν = 1, 2, 4, 6, 10. C’est la densite de W = Z21 + · · · + Z2

ν , ou

Z1, . . . , Zνiid∼ N(0, 1). Ceci implique que si W1 ∼ χ2

ν1et W2 ∼ χ2

ν2

sont indeps, alors W1 + W2 ∼ χ2ν1+ν2

.



Densites de Chi-deux et de Student

w

PD

F

0 5 10 15 20

0.0

0.2

0.4

1

2

46

10

t

PD

F

-4 -2 0 2 40.

00.

10.

20.

30.

4



Si nous notons tn−1(α) le α-quantile de la loi tn−1, les arguments

precedents demontre qu’un IC de niveau (1 − α) pour µ est

Y ± S√n

tn−1(α/2) :

on remplace σ par S et zα/2 par tn−1(α/2). Ceci elargit l’IC, car la

variabilite de S augmente l’incertitude concernant µ.

Example 7.16: Comparer les quantiles de la loi de Student avec

ceux de la loi normale. •

Example 7.17: Calculer les IC de niveaux 0.95 et 0.99 pour la

moyenne µ des hauteurs, en supposant σ inconnu. •



L’argument ci-dessus mene aux ICs exacts pour d’autres parametres

du modele normal, utilisant le fait que si Y1, . . . , Yniid∼ N(µ, σ2), on a

Y ∼ N(µ, σ2/n)

(n − 1)S2 =∑n

j=1(Yj − Y )2 ∼ σ2χ2n−1

}independantes

ou χ2ν represente la loi chi-deux avec ν degres de liberte.

Example 7.18: Soient Y1, . . . , Yniid∼ N(µ, σ2), trouver un IC pour

σ2. Le calculer pour les donnees des hauteurs. •

Example 7.19: Soient

Y1, . . . , Yniid∼ N(µ1, σ

2), X1, . . . , Xmiid∼ N(µ2, σ

2) independantes,

montrer qu’avec

S2 =1

n + m − 2

{∑(Xj − X)2 +

∑(Yj − Y )2

}, Q =

Y − X − (µ1 − µ2)

{(n−1 + m−1)S2}1/2,

est pivotale, et trouver un IC pour µ1 − µ2. •



Parenthese: les IC unilateraux

En pratique on utilise le plus souvent des IC de forme (BI , BS), dits

les intervalles de confiance bilateraux.

Considerons par contre le calcul d’un IC pour une note lors d’un

examen. Ici on cherche un IC de forme (BI , 6): on veut simplement

une borne inferieure que l’on va depasser avec une probabilite donnee.

Definition: Un intervalle de confiance unilateral de niveau

1 − α/2 pour un parametre θ prenant des valeurs c ≤ θ ≤ d est soit

de forme (BI , d), soit de forme (c, BS), avec

P(BI ≤ θ) = 1 − α/2, P(θ ≤ BS) = 1 − α/2.

On peut considerer un IC bilateral de niveau (1 − α) pour θ comme

l’intersection de deux IC unilateraux de niveau (1 − α/2).



Example 7.20: Calculer l’IC de niveau 0.95 de forme (BI ,∞) pour

l’hauteur moyenne µ d’un etudiant, et donner son interpretation. •

Example 7.21: Calculer l’IC de niveau 0.95 de forme (0, BS) pour

la variance σ2 de l’hauteur d’un etudiant, et donner son

interpretation. •



7.6 Les Tests Statistiques

Illustration: Existence du ‘top quark’ (TQ): des experiences

physiques suggerent qu’un nombre X suit un loi de Poisson de

parametre θ, et que θ vaut θ0 = 6.7 si le TQ n’existe pas. La valeur

observee de X est xobs = 17. Est-ce que le TQ existe?

Si le TQ n’existait pas, la probabilite de l’evenement X ≥ xobs serait

P(X ≥ xobs) =∞∑

x=xobs

P(X = x) =∞∑

x=xobs

θx0

x!e−θ0 ,

et avec θ0 = 6.7, xobs = 17, on aurait

P(X ≥ xobs) =∞∑

x=17

6.7x

x!e−6.7 = 0.000599279

.= 0.0006.

Alors, si le TQ n’existe pas, un evenement tres rare s’est passe.



Top quark

Densite Poisson. Gauche: θ = θ0. Droite: θ > θ0.

L’aire ombree mesure la credibilite de l’hypothese ‘TQ n’existe pas’.

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

theta=6.7

x

Poi

sson

den

sity

0 5 10 15 20 25 300.

000.

050.

100.

15

theta=10

x

Poi

sson

den

sity



Les elements d’un test

Une hypothese nulle H0 a tester. Ici on a H0 : θ0 = 6.7.

Une statistique de test T , choisie telle que des grandes valeurs de

T suggerent que H0 est fausse. La valeur observee de T est tobs.

Un niveau de signification pobs donnant la probabilite d’observer

l’evenement T ≥ tobs sous H0. C’est a dire:

pobs = P0(T ≥ tobs),

ou P0(·) indique une probabilite calculee sous H0. Plus pobs est

petite, plus on doute que H0 soit vraie.

Top quark: on suppose que X ∼ Poisson(θ). On a

H0 : θ = θ0 = 6.7, T = X , et pobs.= 0.0006. •



Faire tourner une piece a 5SFr

Est-ce que P(face) = 0.5 quand une piece est tournee?

200 essais: xobs = 115 en la tournant; xobs = 105 en la jetant.

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

5Fr, 1978, spins

Number of spins

Pro

port

ion

of h

eads

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

5Fr, 1978, tosses

Number of tosses

Pro

port

ion

of h

eads



Test d’honnetete de la piece

Si elle est honnete, alors le nombre de faces X sur n essais suit la loi

binomial B(n, θ), avec θ = θ0 = 1/2.

Hypothese nulle H0 : θ = θ0 = 12 .

Ici n = 200, donnant

E(X) = nθ0 = 100, var(X) = nθ0(1 − θ0) = 50 sous H0.

Plus |X − nθ0| est grand, plus on soupconne que la piece n’est pas

honnete — soit P(face) < 1/2, soit P(face) > 1/2.

Statistique de test T = |X − nθ0|.Valeur observee tobs = |X − nθ0| = |115 − 100| = 15.



Honnetete de la piece: Niveau de signification

On veut calculer

pobs = P0(T ≥ tobs) = P0(|X − nθ0| ≥ 15),

et sous H0, X ∼ B(n, θ0) avec n = 200, θ0 = 12 . Ainsi

pobs = P0(X − nθ0 ≤ −15) + P0(X − nθ0 ≥ 15)

= P0(X ≤ 100 − 15) + P0(X ≥ 100 + 15)

=85∑

x=0

(200

x

)12

x 12

200−x+

200∑

x=115

(200

x

)12

x 12

200−x

= 0.04003719.= 1/25.

Alors l’evenement |X − nθ0| ≥ 15 arriverait a peu pres une fois sur 25

par hasard, si H0 etait vraie.



Interpretation de pobs

Plus pobs est petite, plus on doute H0.

Si pobs est petite, il y a deux possibilites:

Soit (a) H0 est vraie, et un evenement rare s’est passe,

soit (b) H0 est fausse.

La choix entre ces possibilites depend de la maniere de juger

l’importance des deux types d’erreurs possibles:

Erreur de Type I: H0 est vraie, mais on la rejette.

Erreur de Type II: H0 est fausse, mais on l’accepte.

Alors ce choix depend des consequences des erreurs, et alors du

contexte du probleme.



Interlude: Approximation normale a pobs

Sous H0, X ∼ B(200, 12 ), et E(X) = 100, var(X) = 50. Donc

X.∼ N(100, 50), et donc Z = (X − 100)/

√50

.∼ N(0, 1).

La symetrie de la densite normale autour de son esperance donne

P0(|X − nθ0| ≥ 15) = 2P(X − nθ0 ≤ −15)

= 2P

{X − nθ0√nθ0(1 − θ0)

≤ −15√nθ0(1 − θ0)

}

.= 2P

{Z ≤ −15 + 1

2√50

}

= 2P(Z ≤ −2.05).= 0.0403.



L’hypothese nulle H0

Le modele statistique le plus simple, ce que l’on veut tester.

Point important: H0 concerne le modele, pas les donnees.

Parfois on n’y croit pas vraiment, mais si elle est vraie (plus ou

moins), le modele sera simplifie.

H0 ne pose pas forcement des contraintes sur les donnees, mais sur

les parametres du modele. Par exemple, si le modele de base est que

X1, . . . , Xniid∼ F (x; θ), mais ne met pas de contrainte sur θ. H0 peut

fixer θ = θ0, ou θ ≤ θ0.



La statistique de test T

Plus T est grande, plus les presomptions contre H0 est forte.

Donc le choix de T depend des alternatives de H0 — ce que l’on

imagine possible, si H0 n’est pas vraie.

Exemple: on remplace l’hypothese alternative H1 ‘la piece est

malhonnete’ par l’hypothese alternative H ′1 que ‘P(face) > 1

2 ’. Alors

on pose T = X − nθ0, et ainsi on a

p′obs = P0(T ≥ tobs) = P0(X−nθ0 ≥ tobs) = P0(X ≥ nθ0+tobs).= 0.02.

Ceci met plus en doute H ′1 que H1, car p′obs < pobs. •

Plus l’hypothese alternative est precise, mieux on peut construire une

statistique de test appropriee.



Le niveau de signification pobs

On le calcule comme si H0 etait vraie.

On utilise souvent des niveaux conventionnels, tels que

α = 0.05, 0.01, 0.001, etc., qui correspondent aux evenements avec des

probabilites de 1/20, 1/100, 1/1000, etc.

On dit que l’on rejette H0 a niveau 0.05 si pobs < 0.05.

Evidemment si pobs < 0.01 on rejette au niveau 0.05 en plus du

niveau 0.01.

Ne pas confondre signification statistique avec signification

practique ni avec signification scientifique.



Lien avec les intervalles de confiance

Soit θ un estimateur du parametre θ, et supposons que θ ∼ N(θ, V ).

L’IC a niveau (1 − α) pour θ est

(θ − z1−α/2V1/2, θ − zα/2V

1/2),

ou zα est la α quantile de la loi N(0, 1).

Si θ0 appartient a l’IC, alors θ − z1−α/2V1/2 ≤ θ0 ≤ θ − zα/2V

1/2.

Donc

zα/2 ≤ (θ − θ0)/V1/2 ≤ z1−α/2,

nous donnant

|θ − θ0|/V 1/2 ≤ z1−α/2

(symetrie de la densite N(0, 1) implique zα/2 = −z1−α/2).

Maintenant supposons que l’on va tester l’hypothese H0 : θ = θ0 en



utilisant T = |θ − θ0|/V 1/2 comme statistique de test.

Sous H0, (θ − θ0)/V1/2 ∼ N(0, 1).

Si le niveau de signification est α, alors P0(T ≥ tobs) = α. Donc

P0(T ≥ tobs) = P0

{−tobs < (θ − θ0)/V

1/2 < tobs

}= 1 − α

et ainsi tobs = z1−α/2, car (θ − θ0)/V1/2 ∼ N(0, 1).

Donc la valeur observee de (θ − θ0)/V1/2 est de ±zα/2, et θ se trouve

sur l’une des bornes de l’IC a niveau (1 − α).

Implication: si θ0 appartient a un IC bilateral de niveau (1 − α), le

niveau de signification du test de H0 : θ = θ0 est au moins α.

Autrement dit: un IC a niveau (1 − α) contient toutes valeurs θ0 que

l’on ne peut pas rejeter a un niveau α.



Test du chi-deux

On l’utilise pour verifier qu’une variable aleatoire obeit a une

distribution donnee.

Il est plus utile pour les lois discretes.

Illustration: Ted Turlings et Cristina Tamo de l’Universite de

Neuchatel etudient des guepes parasitoıdes, qui pondent leurs oeufs a

l’interieur des chenilles. Pour voir si les guepes sont attirees par

l’odeur des chenilles, ils ont mene des experiences avec 6 chambres,

en connexion avec une chambre centrale ou les guepes sont lachees.



Les guepes

Experiences sans odeur:

Chambre 1 2 3 4 5 6

Guepes 11 1 5 6 7 4

Experiences avec odeur de chenille dans la chambre 1:

Chambre 1 2 3 4 5 6

Guepes 76 0 8 4 1 0



L’hypothese nulle

H0: l’odeur n’attire pas les guepes.

Sous H0 et l’hypothese que les guepes se comportent de maniere IID,

les nombres de guepes suivent une loi multinomiale, et la probabilite

qu’une chambre soit choisi par une guepe est 1/6.

Donc le nombre de guepes espere pour la chambre i est Ei = n/6, ou

n est le nombre total de guepes.

On prend comme statistique de test

T =6∑

i=1

(Oi − Ei)2

Ei,

qui mesure la divergence entre les Ei et les nombres observes Oi.



Le niveau de signification

On peut montrer que T.∼ χ2

5 sous H0, si les nombres ne sont pas

trop petits.

Pour l’experience sans odeur, tobs = 9.76,

pobs = P(χ25 ≥ 9.76) = 0.082.

Pour l’experience avec odeur, tobs = 305.9,

pobs = P(χ25 ≥ 305.9) = 0.

Aucune doute que H0 soit fausse: les guepes sont attirees par l’odeur.


Documents

7. Notions de Statistique - STAT homestat · La pente donne une estimation du param`etre de dispersion de la loi, et le point d’intersection avec la droite x = 0 donne une estimation