Upload
vothu
View
213
Download
0
Embed Size (px)
Citation preview
http://statwww.epfl.ch
7. Notions de Statistique7.1: Introduction
7.2: Analyse graphique
7.3: Notions de base: lois d’echantillonage
7.4: Proprietes d’estimateurs
7.5: La quantification de l’incertitude
7.6: Les tests statistiques
References: Davison (2003, Chapitre 1, §§2.1, 2.2, 3.1, 3.2, 7.1.1,
7.3.1); notes de Ben Arous (§§VI.1, VI.2, VI.4–VI.9).
Exercices: (121), 129, 130, 131, (132), 134, du Recueil d’exercices;
2, (3), 4, 11, 19, 21, 22, 24, (25), (29) du Complements d’exercises.
Probabilite et Statistique I/II — Chapıtre 7 1
http://statwww.epfl.ch
Petit Vocabulaire Statistique
Mathematics English Francais
y = (y1, . . . , yn) (observed) data, sample donnees (observees), echantillon observe
dataset un jeu de donnees
Y = (Y1, . . . , Yn) random sample echantillon aleatoire
F, f probability model, statistical model loi de probabilite, modele statistique
θ, µ, σ2, . . . parameter un parametre
T = t(Y ) estimator estimateur
t = t(y) estimate estimation
Q = q(Y, θ) pivot un pivot
(BI , BS) confidence interval intervalle de confiance
tν Student t distribution loi de Student avec ν degres de liberte
with ν degrees of freedom
χ2ν chi-squared distribution loi chi-deux avec ν degres de liberte
with ν degrees of freedom
Probabilite et Statistique I/II — Chapıtre 7 2
http://statwww.epfl.ch
Idees clees — 26 avril 2004
On peut beaucoup voir siemplement en regardant — ‘you can see a
lot just by looking’.
Avec un modele probabiliste, les donnees ainsi que les quantites
calculees avec ces dernieres pourront etre differentes—Statistique
signifie ‘ne jamais devoir dire qu’on est certain’.
Probabilite et Statistique I/II — Chapıtre 7 3
http://statwww.epfl.ch
7.1 Introduction
Les statistiques se rapporte a ce qui peut etre deduit des donnees par
la recherche scientifique, idealement en tant que partie du cycle
experimental qui peut etre divise en quatre etapes :
Planifier
ր ցPrevoir Agir
տ ւAnalyser
la reflexion statistique/probabiliste peut jouer un role a chaque
etape. Souvent le cycle doit etre reitere jusqu’a ce que l’on stoppe la
recherche.
Probabilite et Statistique I/II — Chapıtre 7 4
http://statwww.epfl.ch
Planifier: En se basant sur les connaissances actuelles du probleme,
on decide quelles donnes doivent etre prelever et comment.
Agir: Nous recueillons les donnees en realisant une experience, en
menant une etude, . . .
Analyser: Nous analysons les donnees afin de voir si nous avons
obtenu une reponse a notre question initiale.
Prevoir: Nous mettons a jour nos connaissances, et les utilisons
pour savoir a quoi nos donnees futures pourraient ressembler.
On suppose qu’une partie de la variation des donnees est due au
hasard, de sorte que les idees probabilistes puissent etre appliquees.
La difficulte est de distinguer la variation systematique (signal,
generalement interessant ) de la variation purement aleatoire (bruit,
souvent ininteressant).
Probabilite et Statistique I/II — Chapıtre 7 5
http://statwww.epfl.ch
La Variation et l’Incertitude
La variabilite est omnipresente, et on doit en tenir compte dans nos
modeles mathematiques. On la divise en deux types: la variation
systematique, et la variation aleatoire.
La variation systematique represente souvent des effets d’interet
scientifique potentiel . On cherche a la quantifier et a l’expliquer.
Souvent la variation aleatoire represente des effets qui n’ont pas
d’interet direct, mais qui sont essentiels pour avoir des modeles
realistes.
Idee cle: On modelise la variation aleatoire par des lois de
probabilite, dont les parametres resument les aspects systematiques.
On transforme la variation aleatoire des donnees en des expressions
d’incertitude se rapportant aux parametres.
Probabilite et Statistique I/II — Chapıtre 7 6
http://statwww.epfl.ch
7.2 Analyse Graphique
Pour le moment nous allons supposer que les donnees sont deja
disponibles, et qu’il faut en tirer de l’information.
Planifier
ր ցPrevoir Agir
տ ւAnalyser
Tout d’abord on peut essayer de comprendre les donnees a l’aide de
graphiques. Souvent on n’a pas besoin d’aller plus loin, car ils aident
a la visualisation et la comprehension du probleme. Ils sont tres
utiles aussi pour expliquer nos conclusions aux autres.
Probabilite et Statistique I/II — Chapıtre 7 7
http://statwww.epfl.ch
Exemple
On utilisera les donnees issues des questionnaires que vous avez
rempli. ( n = 36 )
Height Hand Sex Weight Month Test
1 194 23 M 75 3 5.0
2 184 24 M 75 7 4.0
3 175 21 M 65 6 4.5
...
Il y a beaucoup des graphiques familiers, dont . . .
Probabilite et Statistique I/II — Chapıtre 7 8
http://statwww.epfl.ch
L’histogramme
Utile pour visualiser la forme de la densite des donnees y1, . . . , yn.
On choisit a, b, N tels que a < min{yj} < max{yj} < b, on pose
δ = (b − a)/N , on divise l’axe en intervalles disjoints
I1 = [a, a + δ), I2 = [a + δ, a + 2δ), . . . , IN = [a + (N − 1)δ, b),
et on trace une ligne horizontale d’hauteur #{yj ∈ Ir}/(nδ)
au-dessus de Ir.
Le ‘tapis’ en bas montre les yj .
C’est une densite empirique qui depend des choix de a et de N ,
comme on peut le voir sur les graphiques suivants . . .
Probabilite et Statistique I/II — Chapıtre 7 9
http://statwww.epfl.ch
Height
Den
sity
150 170 190
0.00
0.02
0.04
Height
Den
sity
150 170 190
0.00
0.02
0.04
Height
Den
sity
150 170 190
0.00
0.02
0.04
Height
Den
sity
150 170 190
0.00
0.02
0.04
Height
Den
sity
150 170 190
0.00
0.02
0.04
Height
Den
sity
150 170 190
0.00
0.04
0.08
Probabilite et Statistique I/II — Chapıtre 7 10
http://statwww.epfl.ch
Fonction de Repartition Empirique
Soit
F (y) =1
n
n∑
j=1
I(yj ≤ y).
C’est une fonction en escalier qui augmente de 1/n en chaque yj .
Le graphique ci-dessous montre F pour les hauteurs, ainsi qu’une
fonction de repartition normale.
La ‘densite’ correspondante affecte une probabilite de 1/n sur chacun
des yj : c’est une tres mauvaise representation de la densite d’une
variable continue.
Probabilite et Statistique I/II — Chapıtre 7 11
http://statwww.epfl.ch
150 170 190
0.0
0.2
0.4
0.6
0.8
1.0
Height (cm)
Em
piric
al C
DF
150 170 190
0.0
0.2
0.4
0.6
0.8
1.0
Height (cm)E
mpi
rical
CD
F
Probabilite et Statistique I/II — Chapıtre 7 12
http://statwww.epfl.ch
Estimation par noyau
C’est une representation de la densite empirique d’un echantillon:
f(y) =1
n
n∑
j=1
1
hK
(y − yj
h
),
ou K(x) est une densite de probabilite, symetrique autour de x = 0
et de variance 1: par exemple K = φ.
f est donc une somme des contributions de chacun des yj , ponderee
par une fonction de y − yj . Ceci depend du ‘bandwidth’ h > 0, qui
controle la largeur des contributions des yj . Plus h est grand, plus f
est lisse et plate, et inversement.
Le graphique ci-dessous montre f pour les hauteurs, pour un h
‘optimal’ (a gauche), ainsi que pour d’autres valeurs (a droite).
Probabilite et Statistique I/II — Chapıtre 7 13
http://statwww.epfl.ch
140 160 180 200 220
0.00
0.02
0.04
h=3.7
Height (cm)
Den
sity
140 160 180 200 220
0.00
0.02
0.04
h=10 (black), 5 (blue), 2 (red)
Height (cm)
Den
sity
Exercise : Montrer que f(y) est une densite de probabilite pour
tout h > 0 et y1, . . . , yn, et decrire son comportement lorsque h → 0.
Probabilite et Statistique I/II — Chapıtre 7 14
http://statwww.epfl.ch
Quantile-quantile (Q-Q) plots
Une maniere pour comparer deux echantillons x1, . . . , xn et
y1, . . . , yn. On trace le graphique de leurs statistiques d’ordre
(x(1), y(1)), (x(2), y(2)), . . . , (x(n), y(n)).
Si ceci forme une droite, alors les echantillons ont la meme forme.
Soit x(j) le j/(n + 1)-quantile d’une loi theorique (normale,
exponentielle, . . .); On appelle ces x(j) des plotting positions.
Example 7.1: Trouver les ‘plotting positions’ de la loi exp(1). •
Example 7.2: Trouver les ‘plotting positions’ de la loi N(0, 1). •
Probabilite et Statistique I/II — Chapıtre 7 15
http://statwww.epfl.ch
Plus le graphe se rapproche d’une droite, plus les donnees
ressemblent a un echantillon issu de la loi consideree.
La pente donne une estimation du parametre de dispersion de la loi,
et le point d’intersection avec la droite x = 0 donne une estimation
du parametre de position, si cette intersection existe.
Il est difficile de tirer des conclusions fortes d’un tel graphique quand
n est petit, car la variabilite est alors grande — on a tendance a
sur-interpreter,a voir des choses qui n’existent pas.
Probabilite et Statistique I/II — Chapıtre 7 16
http://statwww.epfl.ch
0.0 1.0 2.0 3.0
160
170
180
190
Exponential Q−Q plot
Exponential plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
160
170
180
190
Normal Q−Q Plot
Normal plotting positionsH
eigh
t (cm
)
Probabilite et Statistique I/II — Chapıtre 7 17
http://statwww.epfl.ch
n = 36: quel echantillon n’est pas normal?
−2 −1 0 1 2
165
175
185
Normal plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
160
170
180
190
Normal plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
160
170
180
190
Normal plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
165
175
185
Normal plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
160
170
180
190
Normal plotting positions
Hei
ght (
cm)
−2 −1 0 1 2
165
175
185
Normal plotting positions
Hei
ght (
cm)
Probabilite et Statistique I/II — Chapıtre 7 18
http://statwww.epfl.ch
n = 100: quel echantillon n’est pas normal?
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−2 0 1 2
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
Probabilite et Statistique I/II — Chapıtre 7 19
http://statwww.epfl.ch
n = 500: quel echantillon n’est pas normal?
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
−3 −1 1 2 3
150
170
190
210
Normal plotting positions
Hei
ght (
cm)
Probabilite et Statistique I/II — Chapıtre 7 20
http://statwww.epfl.ch
Le ‘boxplot’
On utilise les boxplots pour comparer des groupes distincts de
nombres semblables. Le but est de donner une bonne idee du centre,
de la variabilite, et de la forme des donnees, et de mettre en evidence
les valeurs aberrantes de maniere claire.
Soit IQR (‘interquartile range’) la difference entre les deux quartiles:
IQR = y(⌈3n/4⌉) − y(⌈n/4⌉).
La ligne centrale represente la mediane, les limites du ‘box’ les
quartiles, la limite superieure des valeurs adjacentes, (‘whiskers’ )
l’observation la plus grande mais plus petit ou egale au 0.75 quantile
plus 1.5IQR.
Les valeurs les plus extremes sont considerees comme des valeurs
aberrantes potentielles et sont representees individuellement.
Probabilite et Statistique I/II — Chapıtre 7 21
http://statwww.epfl.ch
F M
160
170
180
190
Sex
Hei
ght
All Questionnaire
23
45
6
StatusM
ark
for
test
1
Probabilite et Statistique I/II — Chapıtre 7 22
http://statwww.epfl.ch
Le ‘scatterplot’
On utilise un ‘scatterplot’ quand on veut comprendre soit comment
varie une variable y comme fonction d’une variable x, soit comment
varient (x, y) ensemble: c’est le graphique qui represente les paires
(x1, y1), . . . , (xn, yn).
Probabilite et Statistique I/II — Chapıtre 7 23
http://statwww.epfl.ch
160 170 180 190
1015
20
Height (cm)
Han
d w
idth
(cm
)
160 170 180 190
23
45
6
Height (cm)F
irst t
est
Probabilite et Statistique I/II — Chapıtre 7 24
http://statwww.epfl.ch
Commentaires
Les idees probabilistes suggerent comment construire de tels
graphiques, mais elles ne sont pas essentielles: on peut considerer ces
graphiques comme des resumes des donnees purs et simples, aidant a
visualiser et ainsi a comprendre leur structure.
Pour aller plus loin, on a besoin d’introduire des notions probabilistes
explicites.
Probabilite et Statistique I/II — Chapıtre 7 25
http://statwww.epfl.ch
7.3 Notions de base
On va supposer que les donnees y1, . . . , yn, que nous appellons
l’echantillon, forment une realisation des variables aleatoires
Y1, . . . , Yn issues d’une loi de probabilite F decrivant la population.
On suppose souvent que Y1, . . . , Yniid∼ F : c’est un echantillon
aleatoire issu de F .
Si F est determine par un parametre de dimension fini, c’est un
modele parametrique, sinon il est non parametrique. La plupart
de nos modeles seront parametriques.
D’une maniere generique nous noterons les donnees y ≡ (y1, . . . , yn)
et les variables aleatoires correspondantes Y ≡ (Y1, . . . , Yn).
Probabilite et Statistique I/II — Chapıtre 7 26
http://statwww.epfl.ch
Definition: Une statistique t est une fonction des donnees:
t = t(y). La variable aleatoire correspondante est notee T = t(Y ).
Example 7.3: Prenons les donnees sur vos hauteurs:
y1 = 160, y2 = 169, . . . , y36 = 183.
Le Q-Q plot suggere qu’elles sont issues d’une loi normale. Soit
F (y) = Φ{(y − µ)/σ}: un modele parametrique de parametre (µ, σ)
de dimension 2. Des exemples de statistiques sont
y =1
n
n∑
j=1
yj = 177.17cm, median{yj} = 178cm,
s2 =1
n − 1
n∑
j=1
(yj − y)2 = 71.69cm2, IQR = 11.75,
ainsi que le Q-Q plot, etc. •
Probabilite et Statistique I/II — Chapıtre 7 27
http://statwww.epfl.ch
Statistiques de position et de dispersion
Des statistiques telles que la moyenne et la mediane d’un echantillon
mesurent sa position: ou se trouve son centre.
Des statistiques telles que la variance d’un echantillon et l’IQR
mesurent sa dispersion: la variabilite des donnees.
Considerer l’effet d’une transformation yj 7→ a + byj (changement
d’unites de mesure, b 6= 0) sur ces statistiques:
y 7→ a + b y, s 7→ b s.
Example 7.4: Etablir ces proprietes. •
Exercise : Montrer que sous la transformation yj 7→ a + byj , on a
median{yj} 7→ a + b median{yj}, IQR 7→ b IQR. •
Probabilite et Statistique I/II — Chapıtre 7 28
http://statwww.epfl.ch
Parenthese: Statistiques de forme
On peut aussi definir des mesures de la forme (‘shape’) des donnees,
telles que
k3 =n−1
∑(yj − y)3
s3/2ou k′
3 =y(⌈0.95n⌉) − y(⌈0.5n⌉)
y(⌈0.5n⌉) − y(⌈0.05n⌉),
qui mesurent l’asymetrie de y1, . . . , yn.
Exercise : Montrer que k3, k′3 sont invariantes aux changements
y 7→ a + by, sauf a un changement de signe eventuel. Quelles seront
leurs valeurs pour un echantillon symetrique? •
Probabilite et Statistique I/II — Chapıtre 7 29
http://statwww.epfl.ch
Les estimateurs
Definition: Soient Y = (Y1, . . . , Yn) issues d’une loi F de parametre
θ. Un estimateur T = t(Y ) est une statistique construite pour
estimer la valeur de θ. Sa valeur t = t(y) est appelee l’estimation de
θ.
Definition: Si la statistique V est un estimateur de var(T ), on
appelle V 1/2 (egalement sa valeur v1/2) ecart-type de T —
l’ecart-type v1/2 mesure la precision de l’estimation t.
Example 7.5: Soient Y1, . . . , Yniid∼ (µ, σ2), donner des estimateurs
de µ, σ2, σ, et un ecart-type pour l’estimateur de µ. •
Example 7.6: Soient Y1, . . . , Yniid∼ N(µ, σ2), construire des
estimateurs de µ, σ a partir de la mediane T et l’IQR. Sous quelles
conditions seront-t-ils preferables a Y , S? •
Probabilite et Statistique I/II — Chapıtre 7 30
http://statwww.epfl.ch
Rappel: Quantiles de l’Echantillon (Ch 6, page 33)
Definition: Soient X1, . . . , Xniid∼ F , et 0 < p < 1. Alors la p
quantile de l’echantillon de X1, . . . , Xn est la reme statistique
d’ordre X(r), ou r = ⌈np⌉.Theorem (Loi asymptotique des statistiques d’ordre): Soient
0 < p < 1, X1, . . . , Xniid∼ F , et xp = F−1(p). Alors si f(xp) > 0,
X(⌈np⌉) − xp
[p(1 − p)/{nf(xp)2}]1/2
D−→ N(0, 1) lorsque n → ∞.
Ceci implique que
X(⌈np⌉).∼ N
(xp,
p(1 − p)
nf(xp)2
).
Probabilite et Statistique I/II — Chapıtre 7 31
http://statwww.epfl.ch
Rappel: Combinaison de suites convergentes (Ch 6, page 11)
Theorem : Soient x0, y0 des constantes reelles, soient
X, Y, {Xn}, {Yn} des variables aleatoires. Alors
XnD−→ x0 ⇒ Xn
P−→ x0,
XnD−→ X and Yn
P−→ y0 ⇒ Xn + YnD−→ X + y0, XnYn
D−→ Xy0.
La seconde ligne est connue sous le nom de lemme de Slutsky. Il est
tres utile lors d’applications statistiques.
Le graphique suivant montre la variation des quartiles empiriques,
X(⌈n/4⌉) et X(⌈3n/4⌉) et le comportement de l’IQR pour les
echantillons normals de taille n.
Probabilite et Statistique I/II — Chapıtre 7 32
http://statwww.epfl.ch
0 5 10 15 20
−3
−2
−1
01
23
n=20
Ord
ered
sam
ple
0 5 10 15 20
−3
−2
−1
01
23
n=100
Ord
ered
sam
ple
0 5 10 15 20
−3
−2
−1
01
23
n=500
Ord
ered
sam
ple
20 50 100 500 1000 5000
1.0
1.5
2.0
Sample size
IQR
Probabilite et Statistique I/II — Chapıtre 7 33
http://statwww.epfl.ch
Lois d’echantillonnage
Si les donnees y sont issues d’une loi F , elles auraient pu etre
differentes. Donc toute statistique t = t(y) peut etre consideree
comme une realisation d’une variable aleatoire T = t(Y )
correspondante. La loi de cette statistique est appelee sa loi
d’echantillonnage.
Example 7.7: Soient Y1, . . . , Yniid∼ N(µ, σ2), trouver la loi
d’echantillonnage de la moyenne Y . •
Example 7.8: Soient Y1, . . . , Yniid∼ exp(λ), trouver la loi de Y . •
Illustration:
http://www.ruf.rice.edu/%7Elane/stat_sim/sampling_dist/index.html
Probabilite et Statistique I/II — Chapıtre 7 34
http://statwww.epfl.ch
7.4 Proprietes des estimateurs
Comment comparer plusieurs estimateurs pour un parametre donne?
Definition: Un estimateur T = t(Y1, . . . , Yn) d’un parametre θ est
consistant si TP−→ θ quand n → ∞: c’est a dire que pour tout
ε > 0,
P(|T − θ| > ε) → 0, n → ∞.
Ceci est une propriete minimale: on doit pouvoir connaitre le
parametre quand n = ∞! Mais il faut aussi des criteres pour des
echantillons de taille plus realiste.
Est-ce que T est proche a θ?
Definition: Le biais d’un estimateur T d’un parametre θ est
b(θ) = E(T ) − θ. Si b(θ) = 0 pour tout θ alors T est non-biaise.
Probabilite et Statistique I/II — Chapıtre 7 35
http://statwww.epfl.ch
Definition: Le risque quadratique ou erreur quadratique
moyenne de T mesure son ecart carre moyen de θ;
rT (θ) = E{(T − θ)2
}= b(θ)2 + var(T ).
Plus rT est grand, plus T est mauvais.
Example 7.9: Soient Y1, . . . , Yniid∼ N(µ, σ2), montrer que Y est
consistant pour µ, et calculer son risque quadratique. •
Example 7.10: Soient Y1, . . . , Yniid∼ exp(λ) et a > 0 constant,
calculer le risque quadratique de T = a/∑
Yj en tant qu’estimateur
de λ, et le minimiser par rapport a a. •
Un estimateur T1 de θ est preferable a un autre estimateur T2 de θ en
terme de risque quadratique si rT1(θ) ≤ rT2(θ) pour tout θ, avec
inegalite stricte pour au moins une valeur de θ.
Probabilite et Statistique I/II — Chapıtre 7 36
http://statwww.epfl.ch
Example 7.11: Soient Y1, . . . , Yniid∼ N(µ, σ2), comparer la moyenne
Y et la mediane T en tant que estimateurs de µ pour n grand. •
La robustesse d’un estimateur aux valeurs aberrantes (mauvaises
donnees, fautes de frappe ou d’instrumentation, . . .) ou aux
hypotheses de modele est aussi une propriete importante.
Example 7.12: Decrire les effets sur y et la mediane t d’une faute
de frappe qui ajoute c a y1.
Calculer les risques quadratiques approximes de Y et T quand la loi
sous-jacente est Laplace. •
Exercise : Soient Y1, . . . , Yniid∼ N(µ, σ2), sachant que E(S2) = σ2,
var(S2) = 2σ4/(n − 1), comparer les risques quadratiques de S2 et de
(n − 1)S2/n en tant qu’estimateurs de σ2. •
Probabilite et Statistique I/II — Chapıtre 7 37
http://statwww.epfl.ch
7.5 La quantification de l’incertitude
On a des donnees y1, . . . , yn supposees etre une realisation d’un
echantillon aleatoire Y1, . . . , Yn issu d’une loi parametrique F .
Par exemple, les donnees sur vos hauteurs sont
y1 = 160, y2 = 169, . . . , y36 = 183,
nous donnant y = 177.17cm, median{yj} = 178cm, s2 = 71.69cm2.
Soient Y1, . . . , Yniid∼ N(µ, σ2), alors F (y) = Φ{(y − µ)/σ}.
Qu’est-ce que nous pouvons dire de µ ou de σ, a partir de y1, . . . , yn
et l’hypothese d’un modele normal?
On va essayer de donner un intervalle dans lequel il est raisonnable
de trouver le parametre.
Probabilite et Statistique I/II — Chapıtre 7 38
http://statwww.epfl.ch
Idee de Base
Prenons le cas d’un estimateur T d’un parametre θ, tel que
T ∼ N(θ, τ2).
Alors il est aussi probable que T soit a droite et a gauche de θ, et
donc il semble raisonnable de prendre un intervalle de confiance
(IC) de forme
T ± cτ,
symetrique autour de T .
Comment choisir c?
Probabilite et Statistique I/II — Chapıtre 7 39
http://statwww.epfl.ch
Puisque (T − θ)/τ ∼ N(0, 1), l’intervalle avec c = zα/2 va contenir θ
avec probabilite (1 − α), par le raisonnment suivant:
P (T − cτ ≤ θ ≤ T + cτ) = P (−cτ ≤ θ − T ≤ cτ)
= P
(−c ≤ θ − T
τ≤ c
)
= P
(c ≤ T − θ
τ≤ −c
)
= Φ(−c) − Φ(c)
= 1 − α/2 − α/2
= 1 − α
si c = zα/2, et en se rappellant que −zα/2 = z1−α/2 car la densite
N(0, 1) est symetrique.
Definition: La valeur (1 − α) s’appelle le niveau de l’IC.
Probabilite et Statistique I/II — Chapıtre 7 40
http://statwww.epfl.ch
Interpretation
L’interpretation d’un IC se fait par rapport a une suite imaginaire de
jeux de donnees generes sous les memes conditions que le jeu observe.
Si c’etait possible de calculer les ICs correspondants, on trouverait
que la proportion de ceux contenant θ serait (1 − α). Donc si nous
considerons que notre jeu est choisi au hasard parmi tous les jeux,
notre IC contient θ avec probabilite (1 − α). Cette interpretation
depend de la plausibilite de l’hypothese qu’une telle suite de jeux
existe.
Note: Plus α → 0, plus il est probable que l’intervalle contienne θ.
Example 7.13: Calculer les IC de niveaux 0.9, 0.95, et 0.99 pour la
moyenne µ des hauteurs, en supposant que σ =√
71.69 = 8.47.
Donner leurs interpretations. •
Probabilite et Statistique I/II — Chapıtre 7 41
http://statwww.epfl.ch
z 0 1 2 3 4 5 6 7 8 9
0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586
0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56750 .57142 .57535
0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409
0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173
0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793
0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240
0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490
0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524
0.8 .78814 .79103 .79389 .79673 .79955 .80234 .80511 .80785 .81057 .81327
0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891
1.0 .84134 .84375 .84614 .84850 .85083 .85314 .85543 .85769 .85993 .86214
1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87698 .87900 .88100 .88298
1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89617 .89796 .89973 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92786 .92922 .93056 .93189
1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408
1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062
1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169
Probabilite et Statistique I/II — Chapıtre 7 42
http://statwww.epfl.ch
Des IC approximatifs
Des ICs exacts sont rares, et en general on construit des ICs
approximatifs a l’aide du theoreme central limite. Rappelons que la
plupart des statistiques se basant sur les moyennes (implicites ou
explicites) des variables Y = (Y1, . . . , Yn) ont des lois normales pour n
grand. Si T = t(Y ) est un estimateur de θ avec ecart-type√
V , et si
T.∼ N(θ, V ),
alors (T − θ)/√
V.∼ N(0, 1). Ainsi
P{
zα/2 < (T − θ)/√
V ≤ z1−α/2
}.= Φ(z1−α/2) − Φ(zα/2) = 1 − α,
impliquant qu’un IC de niveau a peu pres (1 − α) pour θ est
(T −√
V z1−α/2, T −√
V zα/2).
Probabilite et Statistique I/II — Chapıtre 7 43
http://statwww.epfl.ch
Cadre General
Considerons maintenant la construction generale des ICs.
Definition: Soient Y = (Y1, . . . , Yn) des donnees issues d’une loi
parametrique F avec parametre θ. Alors un pivot est une fonction
Q = q(Y, θ) dont la loi est connue et qui ne depend pas de θ. On dit
alors que Q est pivotale.
Example 7.14: Soient Y1, . . . , Yniid∼ exp(λ), montrer que Q = Y λ
est un pivot. •
Example 7.15: Soient Y1, . . . , Yniid∼ N(µ, σ2) et σ2 connu, montrer
Q1 = q1(Y, µ) = n1/2(Y − µ)/σ est un pivot.
Si σ2 est inconnu, montrer que Q2 = n1/2(Y − µ)/S et Q3 = S2/σ2
sont des pivots. •
Probabilite et Statistique I/II — Chapıtre 7 44
http://statwww.epfl.ch
Les intervalles de confiance
Definition: Soient Y = (Y1, . . . , Yn) des donnees issues d’une loi
parametrique F de parametre θ scalaire. Un intervalle de
confiance (BI , BS) pour θ est une statistique sous forme
d’intervalle qui contient θ avec un probabilite specifiee. Cette
probabilite s’appelle le niveau de l’intervalle.
Si
P (BS ≤ θ) = αS , P (θ < BI) = αI ,
alors
P (BI ≤ θ < BS) = 1 − αS − αI ,
et le niveau de (BI , BS) est de 1 − αS − αI . Souvent en pratique on
prend αI = αS = α/2, donnant un intervalle bilaterale de niveau
(1 − α), et on dit que c’est un IC a (1 − α) × 100%.
Probabilite et Statistique I/II — Chapıtre 7 45
http://statwww.epfl.ch
Calcul d’un IC via un pivot
Soit Q = q(Y, θ) un pivot, alors ses quantiles qαI, qαS
sont connus, au
moins en principe. Supposons que l’equation
q(Y, θ) = q′
a une solution θ′ = q−1(Y, q′) pour tout Y , et que cette solution est
decroissante en q′. Alors
αS − αI = P {qαI≤ q(Y, θ) ≤ qαS
}= P
{q−1(Y, qαI
) ≥ θ ≥ q−1(Y, qαS)}
;
alors
(BI , BS) =(q−1(Y, qαS
), q−1(Y, qαI))
est un IC de niveau αS − αI pour θ. Si αS = 1 − α/2, αI = α/2,
alors le niveau est (1 − α).
Probabilite et Statistique I/II — Chapıtre 7 46
http://statwww.epfl.ch
Loi Normale
Soient Y1, . . . , Yniid∼ N(µ, σ2), et supposons que σ2 est connue. Alors
Q =Y − µ√
σ2/n∼ N(0, 1)
est pivotale, soient zα, z1−α/2 ses quantiles. Les solutions aux
equations
Y − µ√σ2/n
= zαI, zαS
sont Y − σ/n1/2zαI, Y − σ/n1/2zαS
, et l’IC pour µ de niveau (1 − α)
est donc (BI , BS) =(Y − σ/n1/2z1−α/2, Y − σ/n1/2zα/2
),
la formule deja obtenue, avec T = Y et τ2 = σ2/n.
Probabilite et Statistique I/II — Chapıtre 7 47
http://statwww.epfl.ch
Variance σ2 inconnue
Soient Y1, . . . , Yniid∼ N(µ, σ2), avec µ et σ2 inconnus, alors
Q = n1/2(Y − µ)/S
est un pivot, dont la loi s’appelle la loi de Student (‘Student t
distribution’) avec ν = n − 1 degres de liberte : on ecrit Q ∼ tn−1.
Le panneau a droite ci-dessous montre la densite de Student pour des
degres de liberte ν = 1, 2, 4, 20,∞, de bas en haut.
Le cas ν = ∞ donne la densite normale, ν = 1 la loi de Cauchy.
Le panneau a gauche montre la densite chi-deux (χ2ν) de degres de
liberte ν = 1, 2, 4, 6, 10. C’est la densite de W = Z21 + · · · + Z2
ν , ou
Z1, . . . , Zνiid∼ N(0, 1). Ceci implique que si W1 ∼ χ2
ν1et W2 ∼ χ2
ν2
sont indeps, alors W1 + W2 ∼ χ2ν1+ν2
.
Probabilite et Statistique I/II — Chapıtre 7 48
http://statwww.epfl.ch
Densites de Chi-deux et de Student
w
PD
F
0 5 10 15 20
0.0
0.2
0.4
1
2
46
10
t
PD
F
-4 -2 0 2 40.
00.
10.
20.
30.
4
Probabilite et Statistique I/II — Chapıtre 7 49
http://statwww.epfl.ch
Si nous notons tn−1(α) le α-quantile de la loi tn−1, les arguments
precedents demontre qu’un IC de niveau (1 − α) pour µ est
Y ± S√n
tn−1(α/2) :
on remplace σ par S et zα/2 par tn−1(α/2). Ceci elargit l’IC, car la
variabilite de S augmente l’incertitude concernant µ.
Example 7.16: Comparer les quantiles de la loi de Student avec
ceux de la loi normale. •
Example 7.17: Calculer les IC de niveaux 0.95 et 0.99 pour la
moyenne µ des hauteurs, en supposant σ inconnu. •
Probabilite et Statistique I/II — Chapıtre 7 50
http://statwww.epfl.ch
L’argument ci-dessus mene aux ICs exacts pour d’autres parametres
du modele normal, utilisant le fait que si Y1, . . . , Yniid∼ N(µ, σ2), on a
Y ∼ N(µ, σ2/n)
(n − 1)S2 =∑n
j=1(Yj − Y )2 ∼ σ2χ2n−1
}independantes
ou χ2ν represente la loi chi-deux avec ν degres de liberte.
Example 7.18: Soient Y1, . . . , Yniid∼ N(µ, σ2), trouver un IC pour
σ2. Le calculer pour les donnees des hauteurs. •
Example 7.19: Soient
Y1, . . . , Yniid∼ N(µ1, σ
2), X1, . . . , Xmiid∼ N(µ2, σ
2) independantes,
montrer qu’avec
S2 =1
n + m − 2
{∑(Xj − X)2 +
∑(Yj − Y )2
}, Q =
Y − X − (µ1 − µ2)
{(n−1 + m−1)S2}1/2,
est pivotale, et trouver un IC pour µ1 − µ2. •
Probabilite et Statistique I/II — Chapıtre 7 51
http://statwww.epfl.ch
Parenthese: les IC unilateraux
En pratique on utilise le plus souvent des IC de forme (BI , BS), dits
les intervalles de confiance bilateraux.
Considerons par contre le calcul d’un IC pour une note lors d’un
examen. Ici on cherche un IC de forme (BI , 6): on veut simplement
une borne inferieure que l’on va depasser avec une probabilite donnee.
Definition: Un intervalle de confiance unilateral de niveau
1 − α/2 pour un parametre θ prenant des valeurs c ≤ θ ≤ d est soit
de forme (BI , d), soit de forme (c, BS), avec
P(BI ≤ θ) = 1 − α/2, P(θ ≤ BS) = 1 − α/2.
On peut considerer un IC bilateral de niveau (1 − α) pour θ comme
l’intersection de deux IC unilateraux de niveau (1 − α/2).
Probabilite et Statistique I/II — Chapıtre 7 52
http://statwww.epfl.ch
Example 7.20: Calculer l’IC de niveau 0.95 de forme (BI ,∞) pour
l’hauteur moyenne µ d’un etudiant, et donner son interpretation. •
Example 7.21: Calculer l’IC de niveau 0.95 de forme (0, BS) pour
la variance σ2 de l’hauteur d’un etudiant, et donner son
interpretation. •
Probabilite et Statistique I/II — Chapıtre 7 53
http://statwww.epfl.ch
7.6 Les Tests Statistiques
Illustration: Existence du ‘top quark’ (TQ): des experiences
physiques suggerent qu’un nombre X suit un loi de Poisson de
parametre θ, et que θ vaut θ0 = 6.7 si le TQ n’existe pas. La valeur
observee de X est xobs = 17. Est-ce que le TQ existe?
Si le TQ n’existait pas, la probabilite de l’evenement X ≥ xobs serait
P(X ≥ xobs) =∞∑
x=xobs
P(X = x) =∞∑
x=xobs
θx0
x!e−θ0 ,
et avec θ0 = 6.7, xobs = 17, on aurait
P(X ≥ xobs) =∞∑
x=17
6.7x
x!e−6.7 = 0.000599279
.= 0.0006.
Alors, si le TQ n’existe pas, un evenement tres rare s’est passe.
Probabilite et Statistique I/II — Chapıtre 7 54
http://statwww.epfl.ch
Top quark
Densite Poisson. Gauche: θ = θ0. Droite: θ > θ0.
L’aire ombree mesure la credibilite de l’hypothese ‘TQ n’existe pas’.
0 5 10 15 20 25 30
0.00
0.05
0.10
0.15
theta=6.7
x
Poi
sson
den
sity
0 5 10 15 20 25 300.
000.
050.
100.
15
theta=10
x
Poi
sson
den
sity
Probabilite et Statistique I/II — Chapıtre 7 55
http://statwww.epfl.ch
Les elements d’un test
Une hypothese nulle H0 a tester. Ici on a H0 : θ0 = 6.7.
Une statistique de test T , choisie telle que des grandes valeurs de
T suggerent que H0 est fausse. La valeur observee de T est tobs.
Un niveau de signification pobs donnant la probabilite d’observer
l’evenement T ≥ tobs sous H0. C’est a dire:
pobs = P0(T ≥ tobs),
ou P0(·) indique une probabilite calculee sous H0. Plus pobs est
petite, plus on doute que H0 soit vraie.
Top quark: on suppose que X ∼ Poisson(θ). On a
H0 : θ = θ0 = 6.7, T = X , et pobs.= 0.0006. •
Probabilite et Statistique I/II — Chapıtre 7 56
http://statwww.epfl.ch
Faire tourner une piece a 5SFr
Est-ce que P(face) = 0.5 quand une piece est tournee?
200 essais: xobs = 115 en la tournant; xobs = 105 en la jetant.
0 50 100 150 200
0.0
0.2
0.4
0.6
0.8
1.0
5Fr, 1978, spins
Number of spins
Pro
port
ion
of h
eads
0 50 100 150 200
0.0
0.2
0.4
0.6
0.8
1.0
5Fr, 1978, tosses
Number of tosses
Pro
port
ion
of h
eads
Probabilite et Statistique I/II — Chapıtre 7 57
http://statwww.epfl.ch
Test d’honnetete de la piece
Si elle est honnete, alors le nombre de faces X sur n essais suit la loi
binomial B(n, θ), avec θ = θ0 = 1/2.
Hypothese nulle H0 : θ = θ0 = 12 .
Ici n = 200, donnant
E(X) = nθ0 = 100, var(X) = nθ0(1 − θ0) = 50 sous H0.
Plus |X − nθ0| est grand, plus on soupconne que la piece n’est pas
honnete — soit P(face) < 1/2, soit P(face) > 1/2.
Statistique de test T = |X − nθ0|.Valeur observee tobs = |X − nθ0| = |115 − 100| = 15.
Probabilite et Statistique I/II — Chapıtre 7 58
http://statwww.epfl.ch
Honnetete de la piece: Niveau de signification
On veut calculer
pobs = P0(T ≥ tobs) = P0(|X − nθ0| ≥ 15),
et sous H0, X ∼ B(n, θ0) avec n = 200, θ0 = 12 . Ainsi
pobs = P0(X − nθ0 ≤ −15) + P0(X − nθ0 ≥ 15)
= P0(X ≤ 100 − 15) + P0(X ≥ 100 + 15)
=85∑
x=0
(200
x
)12
x 12
200−x+
200∑
x=115
(200
x
)12
x 12
200−x
= 0.04003719.= 1/25.
Alors l’evenement |X − nθ0| ≥ 15 arriverait a peu pres une fois sur 25
par hasard, si H0 etait vraie.
Probabilite et Statistique I/II — Chapıtre 7 59
http://statwww.epfl.ch
Interpretation de pobs
Plus pobs est petite, plus on doute H0.
Si pobs est petite, il y a deux possibilites:
Soit (a) H0 est vraie, et un evenement rare s’est passe,
soit (b) H0 est fausse.
La choix entre ces possibilites depend de la maniere de juger
l’importance des deux types d’erreurs possibles:
Erreur de Type I: H0 est vraie, mais on la rejette.
Erreur de Type II: H0 est fausse, mais on l’accepte.
Alors ce choix depend des consequences des erreurs, et alors du
contexte du probleme.
Probabilite et Statistique I/II — Chapıtre 7 60
http://statwww.epfl.ch
Interlude: Approximation normale a pobs
Sous H0, X ∼ B(200, 12 ), et E(X) = 100, var(X) = 50. Donc
X.∼ N(100, 50), et donc Z = (X − 100)/
√50
.∼ N(0, 1).
La symetrie de la densite normale autour de son esperance donne
P0(|X − nθ0| ≥ 15) = 2P(X − nθ0 ≤ −15)
= 2P
{X − nθ0√nθ0(1 − θ0)
≤ −15√nθ0(1 − θ0)
}
.= 2P
{Z ≤ −15 + 1
2√50
}
= 2P(Z ≤ −2.05).= 0.0403.
Probabilite et Statistique I/II — Chapıtre 7 61
http://statwww.epfl.ch
L’hypothese nulle H0
Le modele statistique le plus simple, ce que l’on veut tester.
Point important: H0 concerne le modele, pas les donnees.
Parfois on n’y croit pas vraiment, mais si elle est vraie (plus ou
moins), le modele sera simplifie.
H0 ne pose pas forcement des contraintes sur les donnees, mais sur
les parametres du modele. Par exemple, si le modele de base est que
X1, . . . , Xniid∼ F (x; θ), mais ne met pas de contrainte sur θ. H0 peut
fixer θ = θ0, ou θ ≤ θ0.
Probabilite et Statistique I/II — Chapıtre 7 62
http://statwww.epfl.ch
La statistique de test T
Plus T est grande, plus les presomptions contre H0 est forte.
Donc le choix de T depend des alternatives de H0 — ce que l’on
imagine possible, si H0 n’est pas vraie.
Exemple: on remplace l’hypothese alternative H1 ‘la piece est
malhonnete’ par l’hypothese alternative H ′1 que ‘P(face) > 1
2 ’. Alors
on pose T = X − nθ0, et ainsi on a
p′obs = P0(T ≥ tobs) = P0(X−nθ0 ≥ tobs) = P0(X ≥ nθ0+tobs).= 0.02.
Ceci met plus en doute H ′1 que H1, car p′obs < pobs. •
Plus l’hypothese alternative est precise, mieux on peut construire une
statistique de test appropriee.
Probabilite et Statistique I/II — Chapıtre 7 63
http://statwww.epfl.ch
Le niveau de signification pobs
On le calcule comme si H0 etait vraie.
On utilise souvent des niveaux conventionnels, tels que
α = 0.05, 0.01, 0.001, etc., qui correspondent aux evenements avec des
probabilites de 1/20, 1/100, 1/1000, etc.
On dit que l’on rejette H0 a niveau 0.05 si pobs < 0.05.
Evidemment si pobs < 0.01 on rejette au niveau 0.05 en plus du
niveau 0.01.
Ne pas confondre signification statistique avec signification
practique ni avec signification scientifique.
Probabilite et Statistique I/II — Chapıtre 7 64
http://statwww.epfl.ch
Lien avec les intervalles de confiance
Soit θ un estimateur du parametre θ, et supposons que θ ∼ N(θ, V ).
L’IC a niveau (1 − α) pour θ est
(θ − z1−α/2V1/2, θ − zα/2V
1/2),
ou zα est la α quantile de la loi N(0, 1).
Si θ0 appartient a l’IC, alors θ − z1−α/2V1/2 ≤ θ0 ≤ θ − zα/2V
1/2.
Donc
zα/2 ≤ (θ − θ0)/V1/2 ≤ z1−α/2,
nous donnant
|θ − θ0|/V 1/2 ≤ z1−α/2
(symetrie de la densite N(0, 1) implique zα/2 = −z1−α/2).
Maintenant supposons que l’on va tester l’hypothese H0 : θ = θ0 en
Probabilite et Statistique I/II — Chapıtre 7 65
http://statwww.epfl.ch
utilisant T = |θ − θ0|/V 1/2 comme statistique de test.
Sous H0, (θ − θ0)/V1/2 ∼ N(0, 1).
Si le niveau de signification est α, alors P0(T ≥ tobs) = α. Donc
P0(T ≥ tobs) = P0
{−tobs < (θ − θ0)/V
1/2 < tobs
}= 1 − α
et ainsi tobs = z1−α/2, car (θ − θ0)/V1/2 ∼ N(0, 1).
Donc la valeur observee de (θ − θ0)/V1/2 est de ±zα/2, et θ se trouve
sur l’une des bornes de l’IC a niveau (1 − α).
Implication: si θ0 appartient a un IC bilateral de niveau (1 − α), le
niveau de signification du test de H0 : θ = θ0 est au moins α.
Autrement dit: un IC a niveau (1 − α) contient toutes valeurs θ0 que
l’on ne peut pas rejeter a un niveau α.
Probabilite et Statistique I/II — Chapıtre 7 66
http://statwww.epfl.ch
Test du chi-deux
On l’utilise pour verifier qu’une variable aleatoire obeit a une
distribution donnee.
Il est plus utile pour les lois discretes.
Illustration: Ted Turlings et Cristina Tamo de l’Universite de
Neuchatel etudient des guepes parasitoıdes, qui pondent leurs oeufs a
l’interieur des chenilles. Pour voir si les guepes sont attirees par
l’odeur des chenilles, ils ont mene des experiences avec 6 chambres,
en connexion avec une chambre centrale ou les guepes sont lachees.
Probabilite et Statistique I/II — Chapıtre 7 67
http://statwww.epfl.ch
Les guepes
Experiences sans odeur:
Chambre 1 2 3 4 5 6
Guepes 11 1 5 6 7 4
Experiences avec odeur de chenille dans la chambre 1:
Chambre 1 2 3 4 5 6
Guepes 76 0 8 4 1 0
Probabilite et Statistique I/II — Chapıtre 7 68
http://statwww.epfl.ch
L’hypothese nulle
H0: l’odeur n’attire pas les guepes.
Sous H0 et l’hypothese que les guepes se comportent de maniere IID,
les nombres de guepes suivent une loi multinomiale, et la probabilite
qu’une chambre soit choisi par une guepe est 1/6.
Donc le nombre de guepes espere pour la chambre i est Ei = n/6, ou
n est le nombre total de guepes.
On prend comme statistique de test
T =6∑
i=1
(Oi − Ei)2
Ei,
qui mesure la divergence entre les Ei et les nombres observes Oi.
Probabilite et Statistique I/II — Chapıtre 7 69
http://statwww.epfl.ch
Le niveau de signification
On peut montrer que T.∼ χ2
5 sous H0, si les nombres ne sont pas
trop petits.
Pour l’experience sans odeur, tobs = 9.76,
pobs = P(χ25 ≥ 9.76) = 0.082.
Pour l’experience avec odeur, tobs = 305.9,
pobs = P(χ25 ≥ 305.9) = 0.
Aucune doute que H0 soit fausse: les guepes sont attirees par l’odeur.
Probabilite et Statistique I/II — Chapıtre 7 70