56
Cours de Statistique asymptotique 1

Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

  • Upload
    haphuc

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Cours de Statistiqueasymptotique

1

Page 2: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Table des matieres

1 Introduction to M-estimation 41.1 Density Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 A real example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Convergences en Statistique Asymptotique 72.1 Caracterisation de la convergence en loi et Theoreme de l’image continue . . 72.2 Variables uniformement tendues . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Quelques rapports entre differents modes de convergences . . . . . . . . . . . 112.4 Les symboles oP et OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.5 Fonctions caracteristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.6 Representation presque sure . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 La methode Delta ou ∆-method 163.1 Le resultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.1 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2.2 Test sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . 18

3.3 Stabilisation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.4 Developpements a l’ordre superieur . . . . . . . . . . . . . . . . . . . . . . . 19

4 Methodes classiques d’estimation par la Methode des moments 214.1 Principe d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5 Les M- et les Z-estimateurs 255.1 Definitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.2 Consistance des M- et Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . 275.3 Normalite asymptotique des M- et Z-estimateurs . . . . . . . . . . . . . . . . 325.4 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.5 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6 Ingalits uniformes de dviation (concentration) 426.1 Chebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426.2 Hoeffding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426.3 Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426.4 Symtrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7 Annexes 437.1 Integrale superieure et probabilite exterieure . . . . . . . . . . . . . . . . . . 43

7.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437.1.2 Integrale superieure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7.2 Processus empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2

Page 3: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

7.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457.2.2 Theoremes de Glivenko-Cantelli et Donsker . . . . . . . . . . . . . . 467.2.3 Processus empirique indexe par des fonctions . . . . . . . . . . . . . . 467.2.4 Entropie et entropie a crochet . . . . . . . . . . . . . . . . . . . . . . 48

7.3 Symetrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.3.1 Espaces d’Orlicz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527.3.2 Glivenko-Cantelli et entropie sans crochet . . . . . . . . . . . . . . . 55

7.4 Conditions pour qu’une classe F soit Donsker. . . . . . . . . . . . . . . . . . 567.4.1 Utilisation de l’entropie sans crochet . . . . . . . . . . . . . . . . . . 56

3

Page 4: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

1 Introduction to M-estimation

1.1 Density Estimation

X1, . . . , Xn ∼i.i.d pθ∗

density with respect to Lebesgue measure λ on R. Empirical measure

Pn =1

n

n∑i=1

δXi

Maximum Likelihood estimator

θn = arg maxθ∈Θ

∫log pθdPn

Note that Θ can be a set of parameters (parametric estimation) or an infinite set which ishence a notation to the set of densities pθ, θ ∈ Θ.

Using the mere definition of the estimator we get∑i

logpθ∗

pθ≤ 0 (1)

To measure the distance between two densities, a common tool is Kullback distance definedas

K(pθ, pθ∗) = E logpθpθ∗≥ 0, (2)

thanks to Jensen’s Inequality.

Let gθ = log pθ∗pθ

, and using (1) we get

0 ≥∫gθndPn =

∫gθndPn +K(pθ, pθ∗)−K(pθ, pθ∗)

Leading to

K(pθ, pθ∗) ≤

∣∣∣∣∣ 1nn∑i=1

(gθn(Xi)− Egθn(Xi))

∣∣∣∣∣ .A Uniform Law of Large Number is needed since we want

supθ∈Θ

(gθ(Xi)− Egθ(Xi))P−→ 0.

Another distance : Hellinger distance

h2(pθ, pθ∗) =1

2

∫(√pθ −

√pθ∗)

2dµ = 1−∫√pθpθ∗dµ.

4

Page 5: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Lemme 1

h2(pθ, pθ∗) ≤1

2K(pθ, pθ∗).

Proof: The proof comes from the inequality

∀v > 0,1

2log v ≤

√v − 1.

1.2 Regression Model

The model is the regression model :

Yi = g0(zi) +Wi, i = 1, . . . , n,

with g0 ∈ G. Define the empirical norm Pn = 1n

∑ni=1 δzi and the corresponding scalar

product <,>n. We consider the following M-estimator

gn = arg ming∈G‖y − g‖2

n = arg ming∈G

1

n

n∑i=1

(Yi − g(zi))2.

Lemme 2‖gn − g0‖2

n ≤ 2 < W, gn − g0 >n .

Our objective is to prove results of the following type

P

(supg∈G| < W, g − g0 >n | ≥ δn

)−→ 0.

In this case, the set G is said to satisfy the uniform law of large numbers.

1.3 A real example

Xi = (Yi, Zi) ∈ 0, 1 × N

where Yi = 1 if the individual i has a job (0 otherwise) while Z is the number of years ofstudy. The two random variables are linked by the following relation

P(Y = 1|Z = z) = F (θ0z), F (x) =ex

1 + ex.

Our aim is to estimate θ.θ = arg max

∑i

pθ(Yi|Zi)

where pθ(y|z) is the conditional likelihood given by

pθ(y|z) = F Y (θ0z)(1− F (θ0z))1−Y =

∫pθ(y|z)dPn,

5

Page 6: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

with

Pn =1

n

n∑i=1

δXi .

Write

lθ(y, z) =∂

∂θlog pθ(y|z)

= z(y − F (θ0z))

Note thatElθ0(Y, Z) = 0.

Set

gθ = − lθ(y, z)− lθ0(y, z)θ − θ0

=

z F (θz)−F (θ0z)

θ−θ0 if θ 6= θ0

z2F (θ0z)(1− F (θ0z)) otherwise

Then using the definition of θ we get

n∑i=1

lθ(Xi) = 0

6

Page 7: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

2 Convergences en Statistique Asymptotique

2.1 Caracterisation de la convergence en loi et Theoreme de l’imagecontinue

Lemme 3 (Portmantau) Pour tous vecteurs aleatoires Xn et X les conditions suivantessont equivalentes :(i) P(Xn ≤ x)→ P(X ≤ x) en tout point de continuite de x 7→ P(X ≤ x).

(ii) E(f(Xn)

)→ E

(f(X)

)pour toute fonction f continue bornee.

(iii) E(f(Xn)

)→ E

(f(X)

)pour toute fonction f Lipschitzienne bornee.

(iv) lim inf E(f(Xn)

)≥ E

(f(X)

)pour toute fonction f continue positive.

(v) lim inf P(Xn ∈ G

)≥ P

(X ∈ G

)pour tout ouvert G.

(vi) lim sup P(Xn ∈ F

)≤ P

(X ∈ F

)pour tout ferme F .

(vii) P(Xn ∈ B

)→ P

(X ∈ B

)pour tout borelien B verifant P

(X ∈ δB

)= 0, ou

δB = B − B.

Preuve :(i) =⇒ (ii) On commence par supposer que la fonction de repartition de X est continue.Alors (i) implique que pour tout rectangle ferme I, P(Xn ∈ I)→ P(X ∈ I).Soit f une fonction continue bornee (par homogeneite on peut supposer que ‖f‖∞ = 1).Soit ε > 0 fixe et I un rectangle ferme verifiant P(X /∈ I) ≤ ε. Comme I est compact lafonction f est uniformement continue sur I. Ainsi il existe η > 0 tel que |x − y| ≤ η =⇒|f(x) − f(y)| ≤ ε, ∀(x, y) ∈ I2. Par compacite on peut recouvrir I par un nombre fini deboules (Ij)j=1...p de rayon η de telle sorte que sur chaque Ij, f varie au plus de ε.On choisit un point xj dans chaque Ij et on definit la fonction fε :=

∑pj=1 f(xj)1lIj . Alors

sur I, ‖f − fε‖∞ ≤ ε.

|E(f(Xn)

)− E

(fε(Xn)

)| ≤ ε+ P

(Xn /∈ I

),

|E(fε(Xn)

)− E

(fε(X)

)| ≤

p∑j=1

∣∣∣P(Xn ∈ Ij)− P

(X ∈ Ij

)∣∣∣ |f(xj)|,

|E(f(X)

)− E

(fε(X)

)| ≤ ε+ P

(X /∈ I

)≤ 2ε.

Par hypothese P(Xn /∈ I

)→ P

(X /∈ I

), ainsi pour n assez grand P

(Xn /∈ I

)≤ 2ε.

De meme∑p

j=1 |P(Xn ∈ Ij

)− P

(X ∈ Ij

)||f(xj)| ≤ p supj |P

(Xn ∈ Ij

)− P

(X ∈ Ij

)| ≤ ε.

Ce qui prouve le resultat lorsque la fonction de repartition de X est continue.Dans le cas general, le nombre de points de discontinuites de la fonction de repartition estau plus denombrable, quitte a elargir un peu le rectangle I on peut supposer que la frontierede I ne possede pas de points de discontinuites. De meme quitte a retrecir les boules, on

7

Page 8: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

peut supposer que leurs frontieres ne possedent pas de points de discontinuites.(ii) =⇒ (iii) est evident.(ii) =⇒ (iv) Soit f une fonction continue positive. Soit M un reel positif, on definit lafonction fM par fM(x) = inf(f(x),M). Cette fonction est continue positive et bornee parM , de plus fM ≤ f . On a pour tout n, E

(fM(Xn)

)≤ E

(f(Xn)

). Par ii) le terme de gauche

converge vers E(fM(X)

). On en deduit que E

(fM(X)

)≤ lim inf E

(f(Xn)

). On conclut par

convergence monotone.(iv) =⇒ (ii) Soit f une fonction continue bornee alors les fonctions f + ‖f‖∞ et ‖f‖∞ − fsont continues positives. Par iv)

E(f(X)

)+ ‖f‖∞ ≤ lim inf E

(f(Xn)

)+ ‖f‖∞,

‖f‖∞ − E(f(X)

)≤ ‖f‖∞ − lim sup E

(f(Xn)

).

On en deduit que lim E(f(Xn)

)= E

(f(X)

).

(iii) =⇒ (v) Soient G un ouvert de Rk et M un entier strictement positif. On definitla fonction fM(x) = inf

(1,Md(x,Gc

). Cette fonction est M−lipschitzienne et bornee par

1. La suite de fonctions fM est une suite croissante convergeant vers 1lG. Par iii) on saitque limn E

(fM(Xn)

)= E

(fM(X)

). Comme P

(Xn ∈ G

)≥ E

(fM(Xn)

), on en deduit que

lim inf P(Xn ∈ G

)≥ E

(fM(X)

). On conclut par convergence monotone.

v) ⇐⇒ vi) Immediat en passant au complementaire.vi) =⇒ vii) Soit B un borelien tel que P

(X ∈ ∂B

)= 0. On a

P(Xn ∈ B

)≤ P

(Xn ∈ B

)≤ P

(Xn ∈ B

).

On applique vi) a B et v) a B puis on remarque P(X ∈ B

)= P

(X ∈ B

)= P

(X ∈ B

).

vii) =⇒ i) C’est immediat il suffit de considerer un point x de continuite de la fonction derepartition de X et B =]−∞, x].

Theoreme 1 (Theoreme de l’image continue) Soit g une fonction Rk dans Rm conti-nue en tout point d’un ensemble C verifiant P

(X ∈ C

)= 1. Alors

i) Si XnL−→nX. Alors g(Xn)

L−→ng(X).

ii) Si XnP−→nX. Alors g(Xn)

P−→ng(X).

iii) Si XnP.S.−−→n

X. Alors g(Xn)P.S.−−→n

g(X).

Preuve :iii) Evident.ii) Soient ε > 0 et δ > 0,

P(‖g(Xn)− g(X)‖ ≥ ε

)≤ P

(‖g(Xn)− g(X)‖ ≥ ε, ‖Xn−X‖ ≤ δ

)+ P(‖Xn−X‖ ≥ δ

). (3)

Le deuxieme terme du membre de droite tend vers zero par hypothese.Soit Bδ = x,∃y, ‖x− y‖ ≤ δ, ‖g(x)− g(y)‖ ≥ ε, alors (3) devient

lim sup P(‖g(Xn)− g(X)‖ ≥ ε

)≤ P

(X ∈ Bδ

).

8

Page 9: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Or P(X ∈ Bδ

)≤ P

(X ∈ Bδ ∩ C

)+ P

(X ∈ Cc

). Le premier terme tend vers zero lorsque

δ tend vers zero par continuite.i) On va appliquer vi) du Lemme de Portmanteau.Soit F un ferme de Rm. g(Xn) ∈ F = Xn ∈ g−1(F )1. Commencons par montrer que

g−1(F ) ⊂ g−1(F ) ⊂ g−1(F ) ∪ Cc.

La premiere inclusion est triviale. Soit x ∈ g−1(F ) alors il existe une suite xn de points deg−1(F ) convergent vers x, si x ∈ C alors par continuite g(xn) converge vers g(x) comme Fest ferme g(x) ∈ F . Sinon x ∈ Cc.On en deduit que lim sup P

(g(Xn) ∈ F

)≤ lim sup P

(Xn ∈ g−1(F )

), par Portmanteau on a

lim sup P(g(Xn) ∈ F

)≤ P

(X ∈ g−1(F )

). Or P

(X ∈ g−1(F ) ≤ P

(X ∈ g−1(F )

)+P(X ∈ Cc

).

Remarque 1 En analysant la preuve, on voit que dans i) et ii) si la variable X est uneconstante c, on a juste besoin de la continuite de g en ce point c.

2.2 Variables uniformement tendues

Remarquons que pour toute variable aleatoire X et tout ε > 0, il existe M > 0 tel queP(‖X‖ > M

)≤ ε. C’est-a-dire que toute variable est tendue.

Definition 1 Soit F = Xa, a ∈ A une famille de vecteurs aleatoires. F est dite uni-formement tendue si

∀ε > 0, ∃M > 0, supa∈A

P(‖Xa‖ > M

)≤ ε.

Lemme 4 (Helly) Soit (Fn)n une suite de fonctions de repartitions de Rk. Alors il existeune sous-suite Fnj et une fonction F positive croissante continue a droite bornee par un,telle que Fnj converge vers F en tout point x de continuite de F .

Remarque 2

1. Si de plus limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1 alors F est une fonction derepartition.

2. Si F n’est pas constante egale a zero et si lim−∞ F (x) = 0 alors F‖F‖∞ est une fonction

de repartition.

Preuve :Soit Qk l’ensemble des vecteurs de Rk a coordonnees rationnelles. Qk etant denombrable onpeut l’ordonner, Qk = q1, q2, . . .. La suite de reels (Fn(q1))n est bornee (Fn(q1) ∈ [0, 1] ∀n),on peut donc en extraire une sous-suite convergente. Notons (n1

j)j la sous-suite de (n) quil’indexe et G(q1) la limite. De la meme maniere, de (n1

j)j, on peut extraire une sous-suite

1Comme g est continue seulement sur un ensemble C de PX−mesure egale a un g−1(F ) n’est pas forcementferme

9

Page 10: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

(n2j)j telle que Fn2

j(q2) −→ G(q2) et, ainsi de suite, Fnij(qi) −→ G(qi). La queue de la suite

diagonale (nj)j = (njj)j appartient a toutes les suites nij, au sens ou ∀i, (njj)j≥i ⊂ (nij)j.Ainsi pour tout i, Fnjj

(qi) −→ G(qi) car Fnij(qi) −→ G(qi). Notons que G est croissante (par

passage a la limite dans Fnjj(qi) ≤ Fnjj

(qi+1)).

Soit x un reel. Definissons F (x) = infq>xG(q). Par construction F est croissante. F estegalement continue a droite : pour tout x et tout ε > 0 il existe un rationnel q tel que x < qet G(q) < F (x) + ε. Si x ≤ y < q, alors F (y) ≤ G(q) < F (x) + ε, d’ou F (y)− F (x) < ε, cequi prouve la continuite a droite.Soit x un point de continuite de F et soit ε > 0. Prenons un y < x tel que F (x)− ε < F (y).Il existe des rationnels r et s verifiant y < r < x < s, F (y) ≤ G(r) et G(s) < F (x) + ε. Enmettant bout a bout ces inegalites, on a F (x) − ε < G(r) ≤ G(s) < F (x) + ε. Consideronsl’inegalite Fn(r) ≤ Fn(x) ≤ Fn(s) et prenons la limite selon la sous-suite (njj), on obtient :

F (x)− ε < G(r) = limFnjj(r) ≤ lim inf Fnjj

(x)

≤ lim supFnjj(x) ≤ limFnjj

(s) = G(s) < F (x) + ε.

D’ou limj Fnjj(x) = F (x), ce qui acheve la preuve.

Theoreme 2 (Prohorov) Soit (Xn) une suite de vecteurs aleatoires.

1. Si XnL−→nX , alors la famille Xn, n ∈ N est uniformement tendue.

2. Si la famille Xn, n ∈ N est uniformement tendue alors il existe une sous-suite quiconverge en loi vers X.

Preuve :

1. Fixons ε > 0, soit M > 0 tel que P(‖X‖ > M

)≤ ε. Quitte a augmenter un peu

M on peut supposer que la fonction de repartition de ‖X‖ est continue en M . ParPortmanteau, on sait qu’il existe N > 0 tel que pour tout n > N, P

(‖Xn‖ > M

)≤

P(‖X‖ > M

)+ ε ≤ 2ε. Pour i ≤ N il existe Mi > 0 tel que P

(‖Xi‖ > Mi

)≤ 2ε. Alors

si K = supiM, (Mi)i, on a supn P(‖Xn‖ > K

)≤ 2ε.

2. C’est un corollaire du lemme de Helly. On note Fn la fonction de repartition de Xn.Par Helly on sait qu’il existe une sous-suite Fnj qui converge vers une fonction F quiressemble a une fonction de repartition. Il reste a montrer que F est bien une fonctionde repartition, c’est a dire que lim−∞ F (x) = 0 et lim∞ F (x) = 1. Soit ε > 0, commeles Xn sont uniformement tendues on peut trouver M > 0 (point de continuite de F )verifiant Fn(M) ≥ 1− ε pour tout n. Par passage a la limite on a F (M) ≥ 1− ε, pourtout ε > 0. Ce qui prouve lim∞ F (x) = 1. Un argument similaire donne la limite en−∞.

Remarque 3 On peut voir ce theoreme comme une version aleatoire d’un resultat deterministebien connu : toute suite convergente est bornee et de toute suite bornee on peut extraire unesous-suite convergente.

10

Page 11: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

2.3 Quelques rapports entre differents modes de convergences

Theoreme 3 Soient (Xn)n, (Yn)n et X, Y des vecteurs aleatoires, soit c une constante.Alorsi) Si Xn

p.s.−−→n

X alors XnPr−→nX.

ii) Si XnPr−→nX alors Xn

L−→nX.

iii) XnPr−→nc si et seulement si Xn

L−→nc.

iv) Si XnL−→nX et d(Xn, Yn)

Pr−→n

0 alors YnL−→nX.

v) (Slutsky) Si XnL−→nX et Yn

Pr−→nc alors (Xn, Yn)

L−→n

(X, c).

vi) Si XnPr−→nX et Yn

Pr−→nY alors (Xn, Yn)

Pr−→n

(X, Y ).

Preuve :i) Soit B = ω,Xn(ω) → X(ω). Soit ε > 0 fixe. Soit An =

⋃m≥nd(Xm, X) ≥ ε. Pour

tout ε > 0, la suite An est decroissante. Si ω ∈ B, il existe n tel que pour tout m ≥ nd(Xn, X) ≤ ε. C’est a dire que ω ∈ Acn. Par suite on en deduit que P

(An)→ 0. On conclut

en remarquant que ω, d(Xn(ω), X(ω)) ≥ ε ⊂ An.ii) On peut voir ii) comme une consequence de iv), mais nous allons en donner une preuvedirecte.Soient f une fonction continue bornee, M > 0 un majorant de f et ε > 0.

E(|f(Xn)− f(X)|

)= E

(|f(Xn)− f(X)|1l|Xn−X|≥η

)+ E

(|f(Xn)− f(X)|1l|Xn−X|<η

),

≤ 2MP(1l|Xn−X|≥η

)+ ε.

Par hypothese le premier terme du membre de droite tend vers 0 ce qui acheve la preuve.iii) On va utiliser vi) de Portmanteau. Soit ε > 0 et B = B(c, ε) la boule ouverte de centrec et de rayon ε. P

(d(Xn, c) ≥ ε

)= P

(Xn ∈ Bc

).

Or Bc est un ferme ainsi lim sup P(d(Xn, c) ≥ ε

)≤ P

(c ∈ Bc

)= 0.

iv) Soit f une fonction de lipschitz bornee, on note L la constante de lipschitz et M unmajorant de f .

E(|f(Xn)− f(Yn)|

)≤ εLP

(|Xn − Yn| ≤ ε

)+ 2MP

(|Xn − Yn| ≥ ε

).

Le deuxieme terme tendant vers zero, on en deduit que le terme de droite tend vers zero.On conclut en utilsant l’inegalite triangulaire |E

(f(Yn) − f(X)

)| ≤ |E

(f(Yn) − f(Xn)

)| +

|E(f(Xn)− f(X)

)|.

v) Commencons par remarquer que d((Xn, Yn), (Xn, c)

)= d(Yn, c), ainsi en utilisant iv)

il suffit de montrer que (Xn, c)L−→ (X, c). Soit f une fonction continue bornee (x, y) 7→

f(x, y) alors la fonction x 7→ f(x, c) est continue bornee. Par Portmanteau, on en deduitE(f(Xn, c)

)→ E

(f(X, c)

).

vi) Trivial ! ! !

Grace au theoreme de l’image continue et v) on obtient aisement le theoreme suivant :

11

Page 12: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Theoreme 4 (Slutsky) Soient Xn, X, Yn des vecteurs aleatoires et c un vecteur constant.

Si XnL−→ X et Yn

L−→ c, alors

i) Xn + YnL−→ X + c.

ii) YnXnL−→ cX.

iii) Y −1n Xn

L−→ c−1X.

Le statut de c n’est pas forcement clair dans i) c doit etre un vecteur de la meme taille queX. Tandis que dans ii) et iii) c’est un scalaire (non nul dans iii)).

Lemme 5 (Convergence uniforme des fonctions de repartitions et convergence en loi)

On suppose XnL−→ X et que la fonction de repartition de X est continue. Alors

supx|P(Xn ≤ x

)− P

(X ≤ x

)| → 0.

Preuve:On se place en dimension 1, en dimension superieure l’idee de la preuve est la meme. Onnote F et Fn les fonctions de repartitions de X et Xn. Soient ε > 0 et un entier k tels que1k≤ ε. Comme F est continue, il existe x1, . . . , xk tels que F (xi) = i

k. Soit xi−1 ≤ x ≤ xi,

par monotonie on a

Fn(x)− F (x) ≤ Fn(xi)− F (xi−1) ≤ Fn(xi)− F (xi) +1

k

Fn(x)− F (x) ≥ Fn(xi−1)− F (xi) ≤ Fn(xi−1)− F (xi−1)− 1

k

Ainsi |Fn(x)−F (x)| ≤ supi |Fn(xi)−F (xi)|+ 1k. On conclut en notant que le premier terme

tend vers 0 (le sup est pris sur un ensemble fini).

2.4 Les symboles oP et OP

Nous introduisons ici des notations tres utiles par la suite.

• Xn = oP (1) signifie que Xn converge vers 0 en probabilite. Plus generalement Xn = oP (Rn)signifie que Xn = YnRn avec Yn convergeant vers 0 en probabilite.

• Xn = OP (1) signifie que la famille (Xn)n est uniformement tendue. Plus generalementXn = OP (Rn) signifie que Xn = YnRn avec la famille (Yn)n uniformement tendue.

Le lemme suivant nous autorisera dans la suite a remplacer des quantites deterministes pardes quantites aleatoires dans les relations o et O.

Lemme 6 Soit Xn une suite de vecteurs aleatoires qui converge vers zero en probabilite.Alors pour tout p > 0, et toute fonction R telle que R(0) = 0,

1. R(h) = o(‖h‖p) =⇒ R(Xn) = oP (‖Xn‖p).

2. R(h) = O(‖h‖p) =⇒ R(Xn) = OP (‖Xn‖p).

12

Page 13: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Preuve:On definit g(h) = R(h)

‖h‖p si h 6= 0 et par g(0) = 0. Alors R(Xn) = g(Xn)‖Xn‖p.1. La fonction g est continue en zero par construction, on en deduit par le theoreme de

l’image continue que g(Xn)P−→ g(0) = 0.

2. Par hypothese il existe M > 0 et δ > 0 tels que |g(h)| ≤ M des que ‖h‖ ≤ δ. AinsiP(|g(Xn)| > M

)≤ P

(‖Xn‖ > δ

). Le dernier terme tend vers zero par hypothese et

par suite g(Xn) est tendue.

2.5 Fonctions caracteristiques

Definition 2 Soit X un vecteur aleatoire de Rk et t ∈ Rk, la fonction caracteristique de Xest definie par

φX(t) = E(

exp(i < t,X >)).

Theoreme 5 (Paul Levy)

1. Soient (Xn)n et X des vecteurs aleatoires de Rk. Alors il y a equivalence entre

(a) XnL−→ X

(b) φXn(t)→ φX(t), ∀t ∈ Rk.

2. Si φXn(t) → φ(t), ∀t ∈ Rk et si φ est continue en 0, alors φ est la fonction ca-

racteristique d’un vecteur aleatoire X et XnL−→ X.

Preuve:

1. (a) =⇒ (b) Il suffit de constater que pour tout t, x 7→ exp(i < t, x >) est continuebornee.(b) =⇒ (a) Il suffit de montrer 2) car la fonction caracteristique est continue en 0.

2. Admettons momentanement que Xn est uniformement tendue. Alors par Prohorov, ilexiste une sous-suite de Xn qui converge en loi vers une variable aleatoire Y. C’est adire que φXnk (t)→ φY (t), ∀t ∈ Rk. Par unicite de la limite, on en deduit que φY = φ.De plus ceci implique que toute sous-suite de Xn convergeant en loi, converge vers Y .Ainsi, il existe un et un seul point d’accumulation au sens de la convergence en loi.Ceci implique que Xn converge en loi vers Y . En effet supposons par l’absurde que Xn

ne converge pas en loi vers Y , il existe donc un point x de continuite de la fonction derepartition de Y , tel que P

(Xn ≤ x

)6→ P

(Y ≤ x

). Il existe donc ε > 0 et une sous-suite

nk tels que |P(Xnk ≤ x

)−P(Y ≤ x

)| ≥ ε. Mais comme (Xn) est uniformement tendue

Xnk l’est aussi, on peut donc par Prohorov en extraire une sous-suite qui converge enloi vers Y , ce qui est contradictoire.

13

Page 14: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Montrons maintenant que Xn est uniformement tendue. Cela va decouler de la conti-nuite de φ en 0. On peut supposer que Xn ∈ R, car la tension composante par compo-sante entraine la tension d’un vecteur. Soient x et δ > 0,

1l|δx|>2 ≤ 2(

1− sin(δx)

δx

)=

1

δ

∫ δ

−δ(1− cos(tx)dt.

On remplace x par Xn et on prend l’esperance

P(|δXn| > 2

)≤ 1

δ

∫ δ

−δE(1− cos(tXn)dt ≤ 1

δ

∫ δ

−δRe(1− E

(exp(itXn)

)dt.

Par hypothese l’integrand converge ponctuellement vers Re(1−φ(t)), par convergence

dominee l’integrale converge vers 1δ

∫ δ−δ Re(1 − φ(t))dt. Soit ε > 0 par continuite de φ

en zero, il existe δ > 0, tel que |t| ≤ δ implique |1 − φ(t)| ≤ ε. Pour ce δ, l’integralelimite est plus petite que 2ε. Il existe N tel que pour tout n ≥ N, P

(|δXn| > 2

)≤

∫ δ−δ Re(1− φ(t))dt+ ε. Ce qui acheve la preuve.

Lemme 7 (Admis) Deux vecteurs aleatoires X et Y de Rk sont de meme loi si et seulementsi leurs fonctions caracteristiques sont egales.

Proposition 1 (Loi faible des grands nombres) Soient Y1, . . . , Yn des v.a.i.i.d. de fonc-

tions caracteristiques φ. Alors YnP−→ µ, si φ est differentiable en zero et iµ = φ′(0).

Preuve:Par hypothese φ(t) = 1 + tφ′(0) + o(t) (lorsque t tend vers zero).

E(

exp(itYn))

= φn(t

n) =

(1 +

t

niµ+ o(

t

n))n→ exp(itµ).

Ainsi par Paul Levy YnL−→ µ. Or la convergence en loi vers une constante est equivalente a

la convergence en proba vers cette constante.

Remarque 4 i) Si E|Y1| < ∞ alors on montre par convergence dominee que φ′(t) existepour tout t et que φ′(0) = iE(Y1).ii) La reciproque de la proposition est vraie (ref 127 p 52).

Proposition 2 (Theoreme de la limite central) Soient Y1, . . . , Yn des v.a.i.i.d. verifiantE(Y1) = 0 et E(Y 2

1 ) = 1 alors√nYn converge en loi vers une v.a. de loi N (0, 1).

Preuve:Toujours par Lebesgue, on peut deriver deux fois φ(t) et on montre que φ

′′(0) = −E(Y 2

1 ).

E(

exp(it√nYn)

)= φn(

t√n

) =(

1− 1

2

t2

niE(Y 2) + o(

t

n)n)→ exp

(− 1

2t2E(Y 2)

).

Ce qui prouve le resultat par Paul Levy.

14

Page 15: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

2.6 Representation presque sure

Theoreme 6 (Admis) Supposons qu’une suite (Xn)n de vecteurs aleatoires converge en loivers un vecteur aleatoire X0. Alors, il existe un espace de probabilite

(Ω,A,P

), des vecteurs

aleatoires(X0, (Xn)n

), verifiant que pour tout n ≥ 0, Xn et Xn sont de meme lois et que

Xnp.s.−→ X0.

15

Page 16: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

3 La methode Delta ou ∆-method

3.1 Le resultat

Soit Tn un estimateur de θ, on desire estimer le parametre φ(θ) ou φ est une fonctionconnue. Il est naturel d’estimer φ(θ) par φ(Tn). On peut alors se demander comment lesproprietes asymptotiques de Tn se transferent a φ(Tn).Le theoreme de l’image continue fournit deja une premiere reponse a la question. Mais il ne

repond pas a la question suivante : si√n(Tn− θ

) L−→ X a-t-on√n(φ(Tn)− φ(θ)

) L−→ Y ?Si φ est lineaire, le resultat est vrai avec Y = φ(X).On sent ici que c’est la partie lineaire de φ qui va etre importante, c’est a dire la differentiellede φ. En effet en premiere approximation si Tn est proche de θ on a

√n(φ(Tn) − φ(θ)

)≈

Dφ(θ)(√n(Tn − θ)). Ainsi on s’attend a ce que

√n(φ(Tn)− φ(θ)

) L−→ Dφ(θ)(X).

Theoreme 7 (Methode Delta) Soit φ une application de Rk dans Rm differentiable en θ.Soit Tn des vecteurs aleatoires de Rk (a valeurs dans le domaine de definition de φ) et (rn)nune suite de nombres reels tendant vers ∞. Alors

rn(φ(Tn)− φ(θ)

) L−→ Dφ(θ)(T );

des que rn(Tn− θ

) L−→ T. De plus la difference entre rn(φ(Tn)−φ(θ)

)et Dφ(θ)

(rn(Tn− θ)

)converge vers zero en probabilite.

Preuve:Comme la suite rn(Tn − θ)

L−→ T , par Prohorov, elle est uniformement tendue. De plus par

le theoreme de Slutsky Tn− θP−→ 0. Soit R(h) = φ(θ+ h)−φ(θ)−Dφ(θ)(h), par definition

de la differentielle R(h) = o(‖h‖). On applique alors le Lemme 6,

φ(Tn)− φ(θ)−Dφ(θ)(Tn − θ) = R(Tn − θ) = oP (‖Tn − θ‖).

On multiplie les deux membres de l’egalite par rn,

rnφ(Tn)− rnφ(θ)− rnDφ(θ)(Tn − θ) = rnoP (‖Tn − θ‖).

rnoP (‖Tn − θ‖) = oP (rn‖Tn − θ‖). De plus, comme rn(Tn − θ) est uniformement tendue,on en deduit que oP (rn‖Tn − θ‖) = oP (1) 2. Ceci acheve la preuve de la deuxieme partiedu theoreme. De plus Dφ(θ) est lineaire donc continue, donc par le theoreme de l’imagecontinue, on a

rnDφ(θ)(Tn − θ)L−→ Dφ(θ)(T ).

On conclut alors en appliquant le theoreme 3, point 4.

2On ecrit oP (rn‖Tn − θ‖) = rn‖Tn − θ‖Zn avec Zn = oP (1) puis on fixe ε > 0 et on prend M tel queP(rn‖Tn − θ‖ > M

)< ε. On montre alors aisement que ∀η > 0, P

(rn‖Tn − θ‖Zn > η

)→ 0.

16

Page 17: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Remarque 5 On applique souvent la methode Delta dans le cas ou Tn est un estimateur deθ et la loi de T est gaussienne. Dans ce cas, si φ est differentiable en θ et si

√n(Tn − θ

) L−→ N (0, V ),

alors√n(φ(Tn)− φ(θ)

) L−→ N (0, Dφ(θ)V Dφ(θ)T ).

3.2 Applications

3.2.1 Variance empirique

Commencons par rappeler le Theoreme central limite multidimensionnel.

Theoreme 8 Soient Y1, Y2, . . . des vecteurs aleatoires i.i.d. de Rk d’esperance µ et de ma-

trice de covariance Σ = E(

(Y1 − µ)(Y1 − µ)∗)

. Alors√n(Yn − µ)

L−→ Nk(0,Σ).

Preuve:Soit t ∈ Rk, Notons Zn =

√n(Yn − µ) par le theoreme central limite classique t∗Zn

L−→N (0, t∗Σt). On conclut alors par un resultat classique sur les vecteurs gaussiens.

Soient X1, . . . , Xn des v.a. i.i.d.. On definit S2n = n−1

∑ni=1(Xi −Xn)2. Un rapide calcul

montre que l’on peut ecrire S2n = φ(Xn, X2

n), avec φ(x, y) = y−x2. On suppose queX1 possedeses quatre premiers moments et on note αi le moment d’ordre i. Si on pose Yi = (Xi, X

2i )

dans le theoreme precedent, on obtient

√n

((Xn

X2n

)−(α1

α2

))L−→ N2

((00

),

(α2 − α2

1 α3 − α1α2

α3 − α1α2 α4 − α22

)).

L’application φ est differentiable en tout point, de differentielle Dφ(x, y)(h, k) = −2xh+ k.On applique le theoreme 7 :

√n(S2n − (α2 − α2

1)) L−→ N (0,−4α4

1 − α22 + 8α2

1α2 − 4α1α3 + α4).

Si α1 = 0 (c’est-a-dire si les observations sont centrees), alors√n(S2n−α2

) L−→ N (0, α4−α22).

On peut d’ailleurs supposer sans perte de generalite que les observations sont centrees. Eneffet, si on pose Zi = Xi − α1, on montre que 1

n

∑ni=1(Zi − Zn)2 = 1

n

∑ni=1(Xi −Xn)2, donc

S2n est inchangee. Notons par µk = EZk

i le moment centre d’ordre k des Xi. Alors

√n(S2n − µ2

) L−→ N (0, µ4 − µ22).

On peut aussi exprimer ce resultat sous la forme suivante :

√n(S2n

µ2

− 1)L−→ N (0, κ+ 2),

ou κ = µ4/µ22 − 3 est le kurtosis (ou coefficient d’aplatissement de la distribution des Xi).

Remarquons enfin que par Slutsky, le resultat est inchange si on considere l’estimateur sansbiais de la variance (obtenu en divisant

∑ni=1(Xi −Xn)2 par n− 1).

17

Page 18: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

3.2.2 Test sur la variance d’une loi normale

Rappel 1 On rappelle les points suivants :

1. Soient U1, . . . , Uk des v.a. i.i.d. de loi N (0, 1). Alors la v.a. Z = U21 + . . . + U2

k estappelee loi du Chi-deux a k degres de libertes ; on la note χ2(k).

2. Si les Xi sont de lois N (m,σ2) alors nS2n

σ2 est une variable du Chi-deux a (n−1) degresde libertes.

3. Le theoreme central limite assure que

χ2n−1 − (n− 1)√

2n− 2

L−→ N (0, 1).

Supposons que l’on desire tester l’hypothese nulle H0 que la variance σ2 d’un n-echantillonX1, . . . , Xn est inferieure ou egale a 1. Si les Xi sont gaussiennes, on rejette H0 si nS2

n depassele quantile d’ordre (1−α) d’un χ2(n− 1), que l’on notera χ2

1−α(n− 1). Toujours dans le casgaussien, le niveau de ce test est exactement α. Mais que se passe-t-il si les Xi ne sont plusgaussiennes ?Nous avons en main deux convergences en loi, l’une provenant du T.C.L. l’autre de la methodeDelta. Notons χ2

α le reel x tel que P(χ2n−1 > x) = α et uα son equivalent gaussien. Le T.L.C.

implique χ2α−(n−1)√

2n−2→ uα. Ainsi le niveau du test du Chi-deux verifie

Pµ2=1(nS2

n > χ2α

)= P

(√n(S2

n

µ2

− 1)>χ2α − n√n

)→ 1− Φ

( uα√2√κ+ 2

).

Ainsi, le test est de niveau asymptotique α si et seulement si κ = 0.

3.3 Stabilisation de la variance

Soient Tn et Θ ⊂ R tels que pour tout θ ∈ Θ,√n(Tn−θ

) L−→ N(0, σ2(θ)

). La convergence

en loi a lieu ici sous Pθ. Pour un θ fixe, un intervalle de confiance de niveau de confianceasymptotique 1− 2α pour θ est de la forme(

Tn − u1−ασ(θ)√n, Tn + u1−α

σ(θ)√n

),

ou u1−α est le quantile d’ordre 1 − α de la loi normale centree reduite. Le probleme de cesintervalles est qu’ils dependent du parametre inconnu σ(θ). Une premiere solution est deremplacer cette quantite par un estimateur. La seconde est de transformer notre problemeen un probleme ou la variance de la loi limite ne depend plus de θ.Soit φ une fonction differentiable. On considere maintenant le parametre η = φ(θ), que

l’on estime naturellement par φ(Tn). La methode Delta assure que√n(φ(Tn) − φ(θ)

) L−→N(

0, φ′(θ)2σ2(θ)).On choisit (sous reserve d’existence) φ de telle sorte que φ′(θ)2σ2(θ) ≡

1, c’est-a-dire φ′(θ) = 1σ(θ)

. On obtient ensuite un intervalle de confiance de niveau asympto-

tique 1−α pour φ(θ). On en deduit un intervalle de confiance pour θ en utilisant la croissancede φ (φ′(θ) = 1

σ(θ)> 0).

18

Page 19: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Exemple 1

Soit (X1, Y1), . . . , (Xn, Yn) un echantillon i.i.d. d’une loi normale bivariee de coefficient decorrelation ρ. Le coefficient de correlation empirique est defini par :

ρn =1n

∑ni=1

(Xi −Xn

) (Yi − Yn

)√(1n

∑ni=1

(Xi −Xn

)2)(

1n

∑ni=1

(Yi − Yn

)2) .

On montre, dans le cas d’un echantillon de la loi normale bivariee, que√n(ρn − ρ)

L−→N (0, (1− ρ2)2) (dans le cas general, l’expression, beaucoup plus compliquee, fait intervenirles quatre premiers moments des lois de X et Y ). On peut deduire de ce resultat et dutheoreme de Slutsky un intervalle de confiance asymptotique pour ρ, neanmoins les calculssont compliques par la presence d’un terme ρ2

n.Une autre solution consiste a utiliser la methode Delta et une transformation qui stabilise lavariance. En appliquant le principe decrit ci-dessus, on cherche φ telle que φ′(ρ) = 1

1−ρ2 . Or

1

1− ρ2=

1

2

[1

1− ρ+

1

1 + ρ

],

d’ou on pose φ(ρ) = 12

ln(

1+ρ1−ρ

)= arctanhρ. On en deduit un intervalle de confiance de

niveau asymptotique 1−α pour ρ (u1−α2

designe le quantile d’ordre 1− α2

de la loi N (0, 1)) :[tanh

(arctanh(ρn)−

u1−α2√n

), tanh

(arctanh(ρn) +

u1−α2√n

)].

3.4 Developpements a l’ordre superieur

Le resultat presente par le theoreme 7 repose sur un developpement de Taylor a l’ordre1. Cependant, lorsque Dφ(θ) est nulle, la loi limite est degeneree en 0. Il est alors interessantde pousser le developpement a un ordre superieur.Dans le cas unidimensionnel, un developpement de Taylor a l’ordre 2 applique a Tn s’ecrit :

φ(Tn) = φ(θ) + (Tn − θ)φ′(θ) +1

2(Tn − θ)2φ′′(θ) + oP (‖(Tn − θ)2‖).

Si φ′(θ) = 0, on a

kn(φ(Tn)− φ(θ)) =kn2

(Tn − θ)2φ′′(θ) + oP (kn‖(Tn − θ)2‖).

Si√kn(Tn − θ)

L−→nN (0, σ2(θ)), alors

kn(Tn − θ)2 L−→nσ2(θ)χ2

1.

Par le meme raisonnement que precedemment, on conclut que

kn(φ(Tn)− φ(θ))L−→n

1

2σ2(θ)φ′′(θ)χ2

1. (4)

19

Page 20: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Exemple 2

Soit X1, . . . , Xn n copies independantes de la loi B(p) (0 < p < 1). On note q = 1− p et Xn

la moyenne empirique des Xi (i = 1, . . . , n). Alors :

√n(Xn − p)

L−→nN (0, pq).

Un estimateur de la variance pq est Tn = φ(Xn) = Xn(1 − Xn). Quelle est la distributionasymptotique de cet estimateur ? Si p 6= 1/2, alors φ′(p) 6= 0 et d’apres le theoreme ? ?,

√n(Tn − pq)

L−→nN (0, pq(1− 2p)2) si p 6= 1/2.

En revanche, φ′(12) = 0. Cependant, φ′′(1

2) = −2, d’ou d’apres (4),

n(Tn − pq)L−→n−1

4χ2

1.

Exemple 3

Supposons que√nXn

L−→nN (0, 1). Que peut-on dire de la distribution asymptotique de

cos Xn ?

20

Page 21: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

4 Methodes classiques d’estimation par la Methode

des moments

4.1 Principe d’estimation

Notation 1 Soit X une variable aleatoire de loi Pθ (θ ∈ Θ). On note :

1. Eθ[f(X)] =∫f(x)dPθ(x) := Pθf .

2. Pnf = 1n

∑ni=1 f(Xi) ou Pn = 1

n

∑ni=1 δXi est la mesure empirique.

3. Gnf :=√n(Pnf − Pθf

).

Soient X1, . . . , Xn un n−echantillon de loi Pθ, ou θ est un parametre se promenant dans Θ.Si θ est de dimension k, on peut l’estimer en cherchant la solution du systeme d’equations

1n

∑ni=1 f1(Xi) = Eθf1(X1)

...1n

∑ni=1 fk(Xi) = Eθfk(X1)

pour des fonctions f1, . . . , fk integrables fixees. Le choix fj(x) = xj conduit a la methodedes moments classiques. L’idee de la methode repose sur le fait que les moments empiriques1n

∑ni=1 fj(Xi) sont de bons estimateurs des moments theoriques Eθfj(X1). Donc si Θ ⊂ Rk,

une valeur de θ pour laquelle k moments empiriques sont egaux aux k moments theoriquescorrespondants semble etre une estimation raisonnable du parametre.

Definition 3 Soit θ ∈ Θ ⊂ Rk un parametre k dimensionnel et soit f = (f1, . . . , fk) unvecteur compose de fonctions integrables. Soit e l’application de Θ dans Rk definie par e(θ) =Pθf . On appelle estimateur de type moment associe a f , une solution notee θn (lorsqu’elleexiste) du syteme d’equations (d’inconnue θ)

Pnf = e(θ).

Exemple 4

Soit le modele (R, N (m,σ2); (m,σ2) ∈ R×R+\0). Un estimateur de θ = (m,σ2) par lamethode des moments est obtenu en resolvant le systeme d’equations d’inconnue θ

1n

∑ni=1 Xi = EθX1 = m

1n

∑ni=1 X

2i = EθX

21 = σ2 +m2

d’ou m = Xn

σ2 = 1n

∑ni=1X

2i −Xn

2= S2

n

On en deduit qu’un estimateur de (m,σ2) par la methode des moments est (Xn, S2n).

21

Page 22: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

L’idee a la base de la methode des moments est la loi des grands nombres, il est donclegitime d’imaginer que l’estimateur des moments aura, sous certaines conditions, de bonnesproprietes asymptotiques.On note la differentielle de e en θ par De(θ).

Theoreme 9 Supposons que θ 7→ e(θ) soit bijective, C1 au voisinage de θ0 et telle queDe(θ0) soit inversible. On suppose de plus que Pθ0‖f‖2 < ∞. Alors l’estimateur de typemoment θn existe avec une probabilite (sous θ0) tendant vers un et verifie

√n(θn − θ0)

L−→ N(

0, De(θ0)−1Σ[De(θ0)−1

]T ),

ou Σ = Pθ0(f − e(θ0)

)(f − e(θ0)

)T.

Remarque 6 Les hypotheses de ce theoreme peuvent paraıtre en premiere lecture etranges,mais elles sont en faite naturelles. En effet, ceux sont les hypotheses minimales pour pouvoirappliquer la methode Delta.

Preuve:On rappelle la notation e(θ) = Pθf . e etant bijective θn = e−1(Pnf). Par le theoreme centrallimite multidimensionnel on a

√n(Pnf − e(θ0)

)L−→ Nk(0,Σ)

avec Σ = Pθ0(f−e(θ0)

)(f−e(θ0)

)T. Les hypotheses nous permettent d’appliquer le theoreme

d’inversion local a e : il existe des voisinages U de θ0 et V de e(θ0) tels que e : U → V soitun diffeomorphisme. θn = e−1(Pnf) existe quand Pnf ∈ V , or par la loi forte des grandsnombres, Pnf converge presque surement vers e(θ0), donc avec probabilite tendant vers 1,Pnf appartient a V , et θn existe. On conclut en appliquant la methode Delta a e−1.

4.2 Intervalles de confiance

Supposons que nous souhaitons estimer la quantite T = Ef(X) dans le cas ou f est borneepar la constante M . Soit Tn l’estimateur de substitution des moments et pour α ∈ (0, 1),nous cherchons tn,α pour que [Tn−tn,α, Tn+tn,α] soit un IC au niveau α. Il suffit de remarquerque

P(T ∈ [Tn − tn,α, Tn + tn,α]) = P(Tn − T ∈ [−tn,α, tn,α])

= P(| 1n

n∑i=1

(f(Xi)− Ef(X))| ≤ tn,α).

Cette inegalite s’apparente a une inegalite de deviation et peut etre controllee au moyen duTheoreme suivant :

22

Page 23: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Theoreme 10 (Inegalite d’Hoeffding) Soient Y1, . . . , Yn n variables aleatoires independantestelles ques

E(Yi) = 0 ai ≤ Yi ≤ bi.

Alors pour tout λ > 0

P(n∑i=1

Yi ≥ λ) ≤ exp(− 2λ2∑ni=1(bi − ai)2

)

P(|n∑i=1

Yi| ≥ λ) ≤ 2 exp(− 2λ2∑ni=1(bi − ai)2

)

Preuve:

– 1 Methode :

Y =a

b− a(b− Y ) +

b

b− a(Y − a)

etY ≤ b− Yb− a

eta +Y − ab− a

etb

log EetY ≤ L(u) := [βe−αu + αeβu]

with α = −a/(b− a), β = b/(b− a) and u = t(b− a). Notons que

L(0) = 0 L′(0) = 0 L

′′(u) ≤ 1

4.

Donc

L(u) ≤ u2

2

1

4≤ t2(b− a)2

8

Finalement on obtient

P(Sn ≥ η) ≤ exp(−tη) exp(1

8

n∑i=1

t2(bi − ai)2)

On finit par choisir

t =4η∑n

i=1(bi − ai)2.

– 2 Methode :

a < Y < b⇒ |Y − a+ b

2| ≤ b− a

2

Var(Y ) ≤ (b− a)2

2.

ψY (λ)Eeλ(Y−EY )

ψ′

Y (λ)E(Y − EY )eλ(Y−EY )

ψ′′

Y (λ)E(Y − EY )2eλ(Y−EY ).

23

Page 24: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Ainsi on applique cette ingalit Yi = fl(Xi) − Efl(Xi) et on obtient un intervalle deconfiance au niveau α de

[Tn − tn,α, Tn + tn,α], tn,α =

√8M2

nlog(2/α)

24

Page 25: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

5 Les M- et les Z-estimateurs

5.1 Definitions et exemples

Soit X1, . . . , Xn une suite finie de v.a. i.i.d. de loi P , definies sur un espace probabilise(Ω, C,P). En statistique, on parle de n-echantillon de loi P . Chaque Xi est une observation.Dans les problemes d’estimation, la loi image de P par X, a savoir P , est inconnue. Onsait simplement qu’elle est issue d’une famille de lois P = Pθ; θ ∈ Θ ou Θ est un espacemetrique muni d’une distance d. On cherche a estimer la valeur θ attachee a la loi P de X.Les M-estimateurs forment une classe tres generale d’estimateurs, qui comprend notammentles estimateurs du maximum de vraisemblance et des moindres carres. L’objet de ce cha-pitre est de traiter des proprietes asymptotiques de telles suites d’estimateurs. Nous nousinteressons a la consistance et a la normalite asymptotique de ces estimateurs.

Definition 4 Une suite d’estimateurs (Tn) de θ est dite consistante si pour tout θ ∈ Θ,

TnP−→ θ,

ce qui s’ecrit encore Tn = θ + oP (1) (pour simplifier, on dira souvent estimateur, au lieu desuite d’estimateurs).

Remarque 7 Si TnP−→ θ, la probabilite P(‖Tn − θ‖ < t) tend vers 1 pour tout t > 0.

Considerons maintenant la probabilite P(rn‖Tn−θ‖ < t), ou (rn) est une suite de reels stricte-ment positifs. On s’attend a ce que cette probabilite tende vers 0 (respectivement 1) lorsque rntend vers +∞ suffisamment rapidement (respectivement lentement). On peut alors imaginerqu’il existe une suite (rn) ”intermediaire”, tendant vers +∞, pour laquelle P(rn‖Tn−θ‖ < t)tende vers une valeur strictement comprise entre 0 et 1. Une telle suite definit la vitesse deconvergence de (Tn) vers θ.

Definition 5 Soit (rn) une suite de reels strictement positifs tendant vers +∞. Un estima-teur Tn de θ est dit rn-consistant si, pour tout θ ∈ Θ, rn(Tn − θ) = OP (1).

Remarque 8 En multipliant (Tn − θ) par rn, on cree ”un effet de compensation” qui per-met d’affiner l’etude du comportement asymptotique de l’estimateur Tn. Cette demarche estanalogue a celle adoptee lorsque l’on passe de la loi des grands nombres au theoreme centrallimite.

Definition 6 La suite (Tn) est dite asymptotiquement normale s’il existe une suite de reelsstrictement positifs (rn) telle que rn →∞, et

∀θ ∈ Θ, rn(Tn − θ)L−→nN (0, V (θ)).

V (θ) est appelee la matrice de variance-covariance asymptotique de la suite (rn(Tn − θ)).

25

Page 26: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Remarque 9 Notons qu’un estimateur asymptotiquement normal est consistant. En effet,

Tn − θ =1

rn· rn(Tn − θ).

Comme 1rn

converge vers 0 et que rn(Tn − θ) converge en loi, le produit converge en loi versla constante 0, et donc egalement en probabilite.

Definition 7

1. Soit Mn une fonction definie sur Θ, a valeurs reelles, et dependant des observations.On dit que θn est un M-estimateur si Mn(θn) ≥ supθ∈ΘMn(θ)− oP (1).

2. Soit Ψn une fonction definie sur Θ, a valeurs dans un espace vectoriel norme (L, ‖ · ‖),et qui depend des observations. On dit que θn est un Z-estimateur si ‖Ψn(θn)‖ = oP (1).

Remarque 10

1. L’hypothese Mn(θn) ≥ supθ∈ΘMn(θ) − oP (1) signifie que θn est presque un maximum

de Mn. L’hypothese ‖Ψn(θn)‖ = oP (1) signifie que θn est presque un zero de Ψn.

2. La fonction Mn est souvent de la forme Mn(θ) = 1n

∑ni=1mθ(Xi), ou mθ est une fonc-

tion reelle.La fonction Ψn est souvent de la forme Ψn(θ) = 1

n

∑ni=1 ψθ(Xi), ou ψθ est a valeurs

vectorielles. Lorsque θ ∈ Rk, ψθ est generalement composee de k fonctions coordonneesψθ,j et on resoud le systeme

1n

∑ni=1 ψθ,1(Xi) = 0

. . .1n

∑ni=1 ψθ,k(Xi) = 0.

Exemple 5

Soit X1, . . . , Xn n observations independantes et de meme loi. La methode du maximum devraisemblance consiste a maximiser en θ la log-vraisemblance 1

n

∑ni=1 log f(xi; θ), ou f(x; θ)

designe la densite de probabilite des Xi.L’estimateur correspondant est appele estimateur du maximum de vraisemblance, c’est

un M-estimateur associe a la fonction mθ(x) = log f(x; θ). L’estimateur du maximum devraisemblance est souvent determine en resolvant un systeme d’equations de vraisemblance :

1

n

n∑i=1

∂θjlog f(xi; θ) = 0 (j = 1, . . . , k) si θ = (θ1, . . . , θk).

L’estimateur du maximum de vraisemblance peut etre vu dans ce cas comme un Z-estimateurassocie a la fonction ψθ(x) = ∂

∂θlog f(x; θ), et ψθ,j est la j-ieme derivee partielle de log f(x; θ).

Reciproquement, un Z-estimateur peut etre vu comme un M-estimateur : si Ψn(θn) = 0,alors θn maximise la fonction θ 7−→ −‖Ψn(θ)‖.

26

Page 27: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Exemple 6

Soit X1, . . . , Xn un n-echantillon d’une loi de moyenne θ. La moyenne empirique est unZ-estimateur de θ : Xn est en effet solution de l’equation Ψn(θ) = 0, avec Ψn(θ) =1n

∑ni=1 ψθ(Xi) et ψθ(Xi) = Xi − θ.

Exemple 7

Soit X1, . . . , Xn (les Xi sont supposes distincts) un n-echantillon d’une loi de mediane θ.La mediane empirique est solution de l’equation Ψn(θ) =

∑ni=1 ψθ(Xi) = 0 avec ψθ(Xi) =

signe(Xi − θ), c’est donc un Z-estimateur3 de θ.

5.2 Consistance des M- et Z-estimateurs

Le theoreme suivant enonce des conditions suffisantes pour la consistance d’une suite deM-estimateurs obtenus par maximisation du critere empirique Mn.

Theoreme 11 Si la suite de fonctions aleatoires (Mn(θ)) satisfait a la condition de conver-gence

supθ∈Θ|Mn(θ)−M(θ)| P−→ 0, (5)

ou M est une fonction de Θ dans R, admettant un maximum unique en θ0 ∈ Θ tel que

∀ε > 0, supθ:d(θ,θ0)≥ε

M(θ) < M(θ0), (6)

alors toute suite de variables aleatoires (θn) telle que Mn(θn) ≥ supθ∈ΘMn(θ) − oP (1)converge en probabilite vers θ0.

Preuve : On decompose puis on majore M(θ0)−M(θn) (quantite positive car θ0 est l’uniquemaximum de M) de la facon suivante :

M(θ0)−M(θn) = M(θ0)−Mn(θ0) +Mn(θ0)−Mn(θn) +Mn(θn)−M(θn)

≤ 2 supθ∈Θ|Mn(θ)−M(θ)|+Mn(θ0)−Mn(θn).

Si Mn(θn) ≥ supθ∈ΘMn(θ)− oP (1), alors Mn(θn) ≥Mn(θ0)− oP (1), d’ou M(θ0)−M(θn) ≤2 supθ∈Θ |Mn(θ)−M(θ)|+ oP (1) = oP (1).

Soit ε > 0. D’apres (6), il existe η > 0 tel que si d(θ, θ0) ≥ ε, on a M(θ) < M(θ0) − η.Donc d(θn, θ0) ≥ ε ⊂ M(θn) < M(θ0)− η et P(d(θn, θ0) ≥ ε) ≤ P(η < M(θ0)−M(θn)).D’apres ce qui precede, P(d(θn, θ0) ≥ ε) −→ 0.

On trouve beaucoup de versions differentes de ce theoreme, selon que l’on suppose ounon l’unicite du maximum ou du minimum, la compacite de l’espace des parametres. Uneversion tres souvent utilisee est la suivante.

3la fonction signe est definie de la maniere suivante : signe(x) = −1, 0, 1 selon que x < 0, x = 0, x > 0.

27

Page 28: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Theoreme 12 Supposons que l’on regarde (pour s’habituer a l’autre cas de figure, couram-ment employe pour les modeles d’ajustement comme la regression) un estimateur minimisantle contraste empirique, en supposant qu’il existe et qu’il est unique. Si en outre

1. Θ est un compact de Rk

2. Mn(θ)P−→M(θ) pour tout θ ∈ Θ

3. θ 7→Mn(θ) et θ 7→M(θ) sont continues

4. SoitWn(η) = sup

|α−β|≤η|Mn(α)−Mn(β)|.

Alors il existe 2 suites decroissantes tendant vers 0 (ηk, εk) telles que

limn→+∞

P[Wn(ηk) > εk] = 0.

Alors toute suite de variables aleatoires (θn) telle que Mn(θn) ≤ infθ∈ΘMn(θ)+oP (1) convergeen probabilite vers θ0.

Preuve : Sans perte de gnralit, on suppose que M(θ0) = 0.Soit B une boule centre en θ0 de rayon r > 0. Il existe ε > 0 tel que ∀θ ∈ Θ \B, M(θ) > 2ε.En effet, M est continue sur Θ\B qui est un compact de Rk. Elle y admet donc un minimum.Or M admet un unique minimum θ0 sur B et θ0 n’appartient pas Θ \ B, ce minimum eststrictement plus grand que M(θ0) = 0.Comme εk →

k→+∞0, il existe k ∈ N tel que εk 6 ε. Par compacit de Θ \ B, il existe N ∈ N∗,

(θ1, . . . , θN) ∈ (Θ \B)N tels que Θ \B ⊂N⋃i=1

B(θi, ηk).

Soit α ∈ Θ \B. Il existe i ∈ [|1, N |] tel que α ∈ B(θi, ηk).Soit n ∈ N. On a

Mn(α) = Mn(α)−Mn(θi) +Mn(θi)

> Mn(θi)− |Mn(α)−Mn(θi)|> inf

i∈[|1,N |]Mn(θi)−Wn(ηk).

Orθn /∈ B

⊂Mn(θn) > inf

i∈[|1,N |]Mn(θi)−Wn(ηk)

.

Or Mn(θ0) > Mn(θn) car θn = Argminθ∈Θ

Mn(θ).

Doncθn /∈ B

⊂Mn(θ0) > inf

i∈[|1,N |]Mn(θi)−Wn(ηk)

.

28

Page 29: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Donc

P(θn /∈ B) 6 P(Wn(ηk) > inf

i∈[|1,N |]Mn(θi)−Mn(θ0)

)6 P

(Wn(ηk) > εk, inf

i∈[|1,N |]Mn(θi)−Mn(θ0) > εk

)+ P

(Wn(ηk) > inf

i∈[|1,N |]Mn(θi)−Mn(θ0), inf

i∈[|1,N |]Mn(θi)−Mn(θ0) < εk

)6 P (Wn(ηk) > εk) + P

(inf

i∈[|1,N |]Mn(θi)−Mn(θ0) < εk

).

Par hypothse, P (Wn(ηk) > εk) →n→+∞

0.

De plus,

P(

infi∈[|1,N |]

Mn(θi)−Mn(θ0) < εk

)6

N∑i=1

P (Mn(θi)−Mn(θ0) < εk) .

Or Mn(θi)−Mn(θ0)P−→M(θi) > 2εk.

Donc, pour tout δ > 0, P (M(θi)− δ 6 Mn(θi)−Mn(θ0) 6 M(θi) + δ)→ 1.On pose δ = εk. On a alors

P (Mn(θi)−Mn(θ0) > εk) > P (M(θi)− εk 6 Mn(θi)−Mn(θ0) 6 M(θi) + εk)→ 1.

Donc P (Mn(θi)−Mn(θ0) < εk)→ 0.D’o

θnP−→ θ0.

Pour les Z-estimateurs, on dispose du theoreme suivant :

Theoreme 13 Soit Ψn(θ) une suite de fonctions aleatoires et Ψ une fonction de Θ dans Ltelles que

supθ∈Θ‖Ψn(θ)−Ψ(θ)‖ P−→ 0,

∀ε > 0, infθ:d(θ,θ0)≥ε

‖Ψ(θ)‖ > 0 = ‖Ψ(θ0)‖. (7)

Alors toute suite de variables aleatoires θn telle que ‖Ψn(θn)‖ = oP (1) converge en probabilitevers θ0.

Preuve : Il suffit d’appliquer le theoreme 11 avec Mn(θ) = −‖Ψn(θ)‖ et M(θ) = −‖Ψ(θ)‖.Mais on peut aussi re-demontrer ce resultat entierement, a titre d’exercice... Soit ε > 0.D’apres (7), il existe η > 0 tel que si d(θ, θ0) ≥ ε, on a ‖Ψ(θ)‖ > η. Donc d(θn, θ0) ≥ ε ⊂

29

Page 30: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

‖Ψ(θn)‖ > η et P(d(θn, θ0) ≥ ε) ≤ P(‖Ψ(θn)‖ > η).

Ensuite, Ψ(θn) = Ψ(θn)−Ψn(θn) + Ψn(θn). Il vient

‖Ψ(θn)‖ ≤ ‖Ψ(θn)−Ψn(θn)‖+ ‖Ψn(θn)‖≤ sup

θ∈Θ‖Ψn(θ)−Ψ(θ)‖+ ‖Ψn(θn)‖ = oP (1) + ‖Ψn(θn)‖.

Si ‖Ψn(θn)‖ = oP (1), alors ‖Ψ(θn)‖ = oP (1) et P(d(θn, θ0) ≥ ε) −→ 0.

Remarque 11 La condition (7) est une condition d’identifiabilite. Il peut etre parfois utilede considerer la condition suivante :

pour toute suite (θn) ∈ Θ, ‖Ψ(θn)‖ −→ 0 implique ‖θn − θ0‖ −→ 0.

Notons que pour simplifier les notations, nous avons utilise la meme notation ‖ · ‖ pourdesigner les normes sur L et Θ.

Remarque 12 Lorsque les fonctions Mn(θ) (resp. Ψn(θ)) s’expriment comme des moyennesempiriques : Mn(θ) = 1

n

∑ni=1mθ(Xi) (resp.Ψn(θ) = 1

n

∑ni=1 ψθ(Xi)), la convergence uni-

forme du theoreme 11 (resp. 13) est equivalente a dire que la classe de fonctions mθ : θ ∈ Θ(resp. ψθ : θ ∈ Θ) est de Glivenko-Cantelli (voir l’annexe sur les processus empiriques).

Exemple 8 (Estimateur de Kaplan-Meier)

Supposons que l’on souhaite estimer la fonction de survie S0(t) = P(T > t) d’une variablealeatoire positive T (de densite f0), que l’on interpretera par exemple comme la duree de fonc-tionnement d’un equipement industriel. On considere ce probleme d’estimation dans un cadrede durees censurees a droite, c’est-a-dire, on observe n repliques independantes (Ui,∆i)

ni=1,

ou Ui = min(Ti, Ci), Ci est une variable aleatoire positive dite de censure, independante deTi, et ∆i = 1Ti≤Ci. On note fC et SC respectivement la densite et la fonction de survie deC. Notons que S0(0) = SC(0) = 1.

Notons Tj (j = 1, . . . ,mn) les instants distincts d’evenements non censures observes.

L’estimateur de Kaplan-Meier Sn de S0 est donne par :

Sn(t) =∏j:Tj≤t

(1−

∑ni=1 ∆i1Ui=Tj∑ni=1 1Ui≥Tj

).

Supposons qu’il existe 0 < τ <∞ et η > 0 tels que S0(τ) ≥ η et SC(τ) > 0. Nous noteronsΘ l’espace de toutes les fonctions de survie S restreintes a l’intervalle [0, τ ], et telles queS(0) = 1 et S(τ) ≥ η. Θ sera muni de la norme uniforme ‖ · ‖∞.

On peut montrer que l’estimateur de Kaplan-Meier est solution de l’equation Ψn(Sn) = 0,ou Ψn : Θ −→ Θ est definie par Ψn(S)(t) = PnψS,t, ou

ψS,t(U,∆) = 1U>t + (1−∆)1U≤t1S(U)>0S(t)

S(U)− S(t).

30

Page 31: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Posons Ψ(S)(t) = PψS,t. On peut montrer que supS∈Θ ‖Ψn(S) − Ψ(S)‖∞P−→ 0 (ceci sera

justifie plus tard en utilisant des arguments etudies dans la suite de ce cours). On calcule

PψS,t = P(U > t) + E[1T>C1C≤t1S(C)>0

S(t)

S(C)

]− S(t)

= S0(t)SC(t) +

∫ t

0

∫ ∞c

1S(c)>0S(t)

S(c)fC(c)f0(x) dxdc− S(t)

= S0(t)SC(t) +

∫ t

0

S0(c)

S(c)1S(c)>0fC(c) dc · S(t)− S(t)

Il est immediat de verifier que Ψ(S0)(t) = 0.

Soit (Sn) une suite de Θ, et posons hn(t) = S0(t)/Sn(t)− 1. Alors on verifie que

supt∈[0,τ ]

|Ψ(Sn)(t)| = supt∈[0,τ ]

|un(t) · Sn(t)|,

ou un(t) = hn(t)SC(t) +∫ t

0hn(c)fC(c) dc. Par hypothese, il existe η > 0 tel que pour tout

t ∈ [0, τ ], Sn(t) ≥ η, donc supt∈[0,τ ] |Ψ(Sn)(t)| ≥ supt∈[0,τ ] |un(t)| ·η. Donc si ‖Ψ(Sn)‖∞ −→ 0,alors supt∈[0,τ ] |un(t)| −→ 0.

Un peu de calcul montre que hn(t) = un(t)/SC(t)−∫ t

0[S2C(c)]−1un(c)fC(c) dc. On en deduit

facilement une majoration de supt∈[0,τ ] |hn(t)|, puis on montre, en utilisant la convergenceuniforme de un, que supt∈[0,τ ] |hn(t)| −→ 0, d’ou ‖Sn − S0‖∞ −→ 0.

Remarque 13 Les conditions enoncees dans les deux theoremes precedents peuvent etreaffaiblies de multiples facons. En voici un exemple lorsque Θ ⊂ R, ou l’on affaiblit l’hypothesede convergence uniforme de Ψn vers Ψ.

Proposition 3 Supposons que :

1. ∀θ ∈ Θ, Ψn(θ)P−→ Ψ(θ),

2. ∀θ ∈ Θ, θ 7−→ Ψn(θ) est continue et s’annule seulement en θn,ou : 2’. θ 7−→ Ψn(θ) est croissante, telle que Ψn(θn) = oP (1),

3. il existe θ0 tel que : ∀ε > 0,Ψ(θ0 − ε) < 0 < Ψ(θ0 + ε).

Alors (θn) converge en probabilite vers θ0.

Preuve:

– Supposons tout d’abord 2. Soit ε > 0. Si Ψn(θ0 − ε) < 0 < Ψn(θ0 + ε), alors θ0 − ε <θn < θ0 + ε, d’apres 2. et le theoreme des valeurs intermediaires. D’ou

P (Ψn(θ0 − ε) < 0,Ψn(θ0 + ε) > 0) ≤ P(θ0 − ε < θn < θ0 + ε

).

31

Page 32: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

On montre facilement que P (Ψn(θ0 − ε) < 0,Ψn(θ0 + ε) > 0) −→ 1. En effet, d’apres

1. et 3., Ψn(θ0 − ε)P−→ Ψ(θ0 − ε) < 0, i.e.

∀η > 0, P (Ψ(θ0 − ε)− η < Ψn(θ0 − ε) < Ψ(θ0 − ε) + η)→ 1.

Posons η = −Ψ(θ0−ε) > 0. Il vient P (2Ψ(θ0 − ε) < Ψn(θ0 − ε) < 0)→ 1. Or 2Ψ(θ0−ε) < Ψn(θ0 − ε) < 0 ⊂ Ψn(θ0 − ε) < 0 d’ou P (Ψn(θ0 − ε) < 0) → 1. De meme,P (Ψn(θ0 + ε) > 0)→ 1. On en deduit que

P (Ψn(θ0 − ε) < 0,Ψn(θ0 + ε) > 0) = P (Ψn(θ0 − ε) < 0) + P (Ψn(θ0 + ε) > 0)

−P (Ψn(θ0 − ε) < 0 ∪Ψn(θ0 + ε) > 0) −→ 1.

D’ou P(|θn − θ0| < ε

)−→ 1, ce qui acheve la demonstration.

– Supposons maintenant 2’. Soit η > 0. On a |θn − θ0| > η = θn > θ0 + η ∪ θn <θ0 − η ⊂ Ψn(θn) ≥ Ψn(θ0 + η) ∪ Ψn(θn) ≤ Ψn(θ0 − η) car Ψn est croissante. Dela, on deduit

P(|θn − θ0| > η) ≤ P(Ψn(θ0 + η)−Ψn(θn) ≤ 0) + P(0 ≤ Ψn(θ0 − η)−Ψn(θn)).

Or Ψn(θ0 − η)− Ψn(θn)P−→ Ψ(θ0 − η) < 0. Par le meme raisonnement que ci-dessus,

P(0 ≤ Ψn(θ0− η)−Ψn(θn)) −→ 0. De meme, P(Ψn(θ0 + η)−Ψn(θn) ≤ 0) −→ 0. D’ouP(|θn − θ0| > η) −→ 0.

Exemple 9 (Mediane)

La mediane empirique θn est solution de Ψn(θ) = 1n

∑ni=1 signe(Xi−θ) = 0. La loi des grands

nombres assure que ∀θ, Ψn(θ)P−→ Ψ(θ) = E[signe(X − θ)] = P(X > θ) − P(X < θ). On

s’attend donc a ce que (θn) converge en probabilite vers un θ0 tel que Ψ(θ0) = 0, soit tel queP(X > θ0) = P(X < θ0). Ce θ0 est la mediane de la loi des Xi.

On note que Ψn est decroissante. D’apres la proposition 3, θnP−→ θ0 si ∀ε > 0, Ψ(θ0 + ε) <

0 < Ψ(θ0− ε), i.e. si P(X > θ0 + ε) < P(X < θ0 + ε) et P(X > θ0− ε) > P(X < θ0− ε). Cecisera verifie si ∀ε > 0, P(X < θ0 − ε) < 1

2< P(X < θ0 + ε).

5.3 Normalite asymptotique des M- et Z-estimateurs

Le premier theoreme presente enonce les ”conditions classiques” (Cramer, 1946) sous les-quelles une suite consistante de Z-estimateurs est asymptotiquement normale. Ces conditionssont trop restrictives pour certaines applications et nous presenterons ensuite des theoremesenoncant des conditions moins fortes. Le theoreme qui suit a l’avantage de se demontrerfacilement.

Soit X1, X2, . . . une suite de v.a. i.i.d. de loi P sur un espace mesurable (X ,A). Nous nousinteressons a la normalite asymptotique d’une suite d’estimateurs (θn) du parametre θ at-tache a la loi P .On suppose que θ appartient a un ouvert Θ de R. θn est obtenu comme solution de l’equationΨn(θ) = 0, ou Ψn(θ) = 1

n

∑ni=1 ψθ(Xi). On note Pψθ = E [ψθ(X)] =

∫X ψθ(x) dP (x).

32

Page 33: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Theoreme 14 Supposons que θ 7→ ψθ(x) est C2 pour tout x, et que, pour tout θ dans unvoisinage de θ0, |ψθ(x)| ≤ h(x), avec Ph < ∞. Supposons que Pψθ0 = 0, que P |ψθ0|2 < ∞,

et que Pψθ0 est inversible. Soit une suite θn telle que ∀n,Ψn(θn) = oP (1/√n), et θn

P−→ θ0.Alors

√n(θn − θ0)

L−→ N(

0,(Pψθ0

)−2

Pψ2θ0

).

Preuve:

oP (1/√n) = Ψn(θn) = Ψn(θ0) + (θn − θ0)Ψn(θ0) +

1

2(θn − θ0)2Ψn(θn),

ou θn est compris entre θ0 et θn, d’ou

√n(θn − θ0) =

oP (1)−√nΨn(θ0)

Ψn(θ0) + 12(θn − θ0)Ψn(θn)

(8)

D’apres la loi des grands nombres, Ψn(θ0)P−→ Pψθ0 = 0, et le TCL assure que

√nΨn(θ0)

converge en loi vers N(0, Pψ2

θ0

). Par Slutsky, le numerateur de (8) converge en loi vers

N(0, Pψ2

θ0

). De plus, Ψn(θ0)

P−→ Pψθ0 . Avec probabilite tendant vers 1,

|Ψn(θn)| =

∣∣∣∣∣ 1nn∑i=1

ψθn(Xi)

∣∣∣∣∣ ≤ 1

n

n∑i=1

|ψθn(Xi)| ≤1

n

n∑i=1

h(Xi)P−→ Ph.

Donc Ψn(θn) = OP (1) (on verifie facilement que si Yn = OP (1) et pour tout n ∈ N, |Xn| ≤|Yn|, alors Xn = OP (1)). D’ou (θn−θ0)Ψn(θn) = oP (1)OP (1) = oP (1). Ainsi, Ψn(θ0)+ 1

2(θn−

θ0)Ψn(θn)P−→ Pψθ0 . D’apres le theoreme de Slutsky,

√n(θn − θ0)

L−→ N (0, (Pψθ0)−2Pψ2

θ0).

Remarque 14 Pour pouvoir appliquer ce theoreme a une suite consistante de M−estimateursθn = argmaxθ

1n

∑ni=1mθ(Xi), il faut que θ 7→ mθ soit C3. Nous enoncerons dans la suite un

theoreme qui ne necessite pas une hypothese aussi forte.

Avant de donner un theoreme affaiblissant les conditions du theoreme 14, nous allons demontrerun lemme et donner un exemple.

Lemme 8 Soit F une classe de fonctions mesurables, supposee Donsker, fn une suite defonctions aleatoires a valeurs dans F , et f0 ∈ L2(P ) (i.e. Pf 2

0 < ∞). Supposons que∫(fn(x)−f0(x))2 dP (x) converge en probabilite vers 0. Alors, Gn(fn−f0)

P−→ 0 et GnfnL−→

GPf0.

Par ”fonction aleatoire a valeurs dans F”, on entend que fn est une fonction definie surle meme espace de probabilite (Ω, C,P) que les Xi et que pour tout ω ∈ Ω, fn(ω) ∈ F

33

Page 34: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

(alors x 7→ fn(ω, x) est mesurable). Souvent, fn(x, ω) est fonction des observations Xi etfn(x, ω) = fn(x,X1(ω), . . . , Xn(ω)). On note, pour un ω fixe (que l’on ne fera plus figurerdans l’ecriture), P fn =

∫X fn(x,X1, . . . , Xn) dP (x), Pnfn = 1

n

∑ni=1 fn(Xi, X1, . . . , Xn), et

Gnfn =√n(Pnfn − P fn).

Le TCL ne peut pas s’appliquer directement a la suite Gnfn, mais si les fonctions fn sont”suffisamment regulieres”, son resultat reste valable d’apres le lemme 8.

Preuve:Supposons (sans perte de generalite) que f0 ∈ F (sinon, on considere la classe F ∪ f0).Definissons h : l∞(F) × F → R de la maniere suivante : ∀(z, f) ∈ l∞(F) × F , h(z, f) =z(f) − z(f0). On munit l∞(F) de la norme ‖z‖ = supf∈F |z(f)| et F de la norme L2(P ) :

‖f‖2,P = (Pf 2)1/2. Alors h est continue en tout (z, f) tel que z soit continue en f . En effet,supposons que (zn, fn) converge vers (z, f) dans l∞(F)×F . Alors zn converge uniformementvers z. Donc

h(zn, fn) = zn(fn)− zn(f0) = z(fn)− z(f0) + o(1),

et h(zn, fn) −→ h(z, f) si z(fn) −→ z(f), donc si z est continue en f .

On a suppose que fnP−→ f0 dans (F , ‖ · ‖2,P ). De plus, F etant Donsker, Gn

L−→ GP

dans l∞(F), d’ou (Gn, fn)L−→ (GP , f0) dans l∞(F) × F . On admettra sans demonstration

que presque toutes les trajectoires de GP sont continues sur F . Donc h definie ci-dessus est

continue en presque tous les (GP , f0). Par le theoreme de l’image continue, h(Gn, fn)L−→

h(GP , f0) = 0 soit Gn(fn − f0)L−→ 0. D’ou Gn(fn − f0)

P−→ 0 et GnfnL−→ GPf0.

Exemple 10

Soit un echantillon i.i.d. X1, . . . , Xn de loi P et de fonction de repartition F (on supposepour simplifier les notations que la moyenne Px des Xi vaut 0). Un estimateur naturel del’erreur absolue moyenne est donne par

Mn =1

n

n∑i=1

|Xi −Xn|.

Mn peut s’ecrire sous la forme Pnfn, ou fn(x) := fn(x;Xn) = |x − Xn| est une fonctionaleatoire (elle depend de ω au travers de Xn(ω)). On souhaite determiner la loi limite de√n(Mn − P |x|) =

√(Pnfn − P |x|). Pour ω ∈ Ω fixe, x 7→ fn(x;Xn(ω)) appartient a

l’ensemble F = fθ : x 7→ fθ(x) = |x − θ|, θ ∈ Θ, ou Θ est borne dans R. Supposons quePx2 <∞.

On verifie que |fθ1(x) − fθ2(x)| = ||x− θ1| − |x− θ2|| ≤ m(x)|θ1 − θ2|, ou m ≡ 1 etPm2 = 1, et

∫f 2θ dP ≤ Px2 + θ2 < ∞, d’ou F est une classe de Donsker d’apres l’exemple

(13).On a∫(fn(x)− |x|)2 dP (x) =

∫(|x−Xn| − |x|)2 dP (x) ≤

∫|Xn|2 dP (x) = |Xn|2

p.s.−→ 0,

34

Page 35: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

donc d’apres le lemme 8, Gn|x−Xn| −Gn|x|P−→ 0, ce que l’on peut ecrire

√n

(1

n

n∑i=1

|Xi −Xn| − P |x−Xn|

)= Gn|x|+ oP (1).

D’ou√n(Mn − P |x|) =

√n(Mn − P |x−Xn|+ P |x−Xn| − P |x|)

=√n(P |x−Xn| − P |x|) +

√n(Mn − P |x−Xn|)

=√n(P |x−Xn| − P |x|) + Gn|x|+ oP (1)

Si θ 7→ P |x − θ| =∫|x − θ| dP (x) est derivable en 0, sa derivee en 0 vaut 2F (0) − 1, et

d’apres la methode delta,√n(P |x−Xn| − P |x− Px|) = [2F (0)− 1]

√n(Xn − Px) + oP (1),

soit√n(P |x − Xn| − P |x|) = [2F (0) − 1]Gnx + oP (1). Donc

√n(Mn − P |x|) = [2F (0) −

1]Gnx + Gn|x| + oP (1), et√n(Mn − P |x|) converge en loi vers une gaussienne centree de

variance var([2F (0)− 1]X1 + |X1|).

Theoreme 15 Soit Θ un ouvert de Rk. Supposons que la classe de fonctions de X dans Rk

F = ψθ : θ ∈ Θ soit P -Donsker, que θ 7→ Pψθ soit differentiable en θ0 (θ0 est tel quePψθ0 = 0), et de derivee Vθ0 inversible. Supposons que P‖ψθ0‖2 <∞. Si Pnψθn = oP (1/

√n),

θnP−→ θ0, et

∫‖ψθn(x)− ψθ0(x)‖2 dP (x) converge en probabilite vers 0, alors

√n(θn − θ0) = −V −1

θ0

1√n

n∑i=1

ψθ0(Xi) + oP (1).

Par suite,√n(θn − θ0)

L−→ N(0, V −1

θ0P (ψθ0ψ

Tθ0

)(V −1θ0

)T).

Preuve:On a : Gnψθn =

√n(Pnψθn − Pψθn), et par hypothese,

√nPnψθn = oP (1) et Pψθ0 = 0, d’ou

Gnψθn = oP (1)−√nPψθn +

√nPψθ0 = −

√n(Pψθn − Pψθ0) + oP (1).

De plus, d’apres le Lemme 8, Gnψθn − Gnψθ0P−→ 0 d’ou Gnψθn = Gnψθ0 + oP (1). En

combinant ces deux resultats, on a donc

−√n(Pψθn − Pψθ0) = Gnψθ0 + oP (1). (9)

Pψθ est differentiable en θ0 d’ou Pψθ0+h − Pψθ0 = Vθ0h + R(h), ou R(h) = o(‖h‖) quand

h→ 0. D’apres le lemme 6, et puisque θnP−→ θ0, on peut remplacer h par θn − θ0, et donc

Pψθn − Pψθ0 = Vθ0(θn − θ0) + oP (‖θn − θ0‖).

Ainsi (9) devient

−√nVθ0(θn − θ0) = oP (

√n‖θn − θ0‖) + Gnψθ0 + oP (1). (10)

On a alors −√n(θn−θ0) = oP (

√n‖θn−θ0‖)+OP (1), d’ou

√n‖θn−θ0‖ ≤ oP (

√n‖θn−θ0‖)+

OP (1), puis√n‖θn − θ0‖(1 − oP (1)) = OP (1). Finalement,

√n‖θn − θ0‖ = OP (1) et donc

oP (√n‖θn − θ0‖) = oP (1). De (10), on deduit donc que −

√nVθ0(θn − θ0) = Gnψθ0 + oP (1).

Vθ0 etant supposee inversible, le resultat s’en deduit.

35

Page 36: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Remarque 15 Soit X1, . . . , Xn (les Xi sont supposes distincts) un n-echantillon d’une loide mediane θ. La mediane empirique est solution de l’equation Pnψθ = 0 avec ψθ(x) =signe(x − θ). La classe de fonctions F = ψθ(x) = sign(x − θ), θ ∈ Θ (Θ ouvert de R)est Donsker (on le montre de la meme maniere que dans l’exemple 12). Ainsi le theoremeprecedent s’applique et la mediane empirique est asymptotiquement normale.

Dans ce qui suit, l’espace des parametres Θ n’est plus suppose etre un sous-ensemble deRk, ni Ψn etre de la forme Pnψθ. Ψn : Θ 7→ L est une fonction aleatoire entre deux espacesde Banach (on ne fait pas figurer dans la notation l’espace de probabilite sous-jacent) etun θn qui verifie (approximativement) Ψn(θn) = 0 est un Z-estimateur de θ. Si θ etaitjusqu’alors un parametre fini-dimensionnel, le theoreme qui va suivre va nous permettre detraiter des modeles statistiques indexes par des parametres ”infini-dimensionnels” (modelessemi-parametriques par exemple). Ψn ”estime” en general une fonction fixee Ψ : Θ 7→ Lqui s’annule en θ0. Le theoreme qui suit enonce des conditions sous lesquelles

√n(θn − θ0)

converge en loi.On rappelle que θ 7→ Ψ(θ) est Frechet-differentiable en θ0 s’il existe une application

lineaire continue Ψθ0 : Θ 7→ L telle que Ψ(θ) − Ψ(θ0) − Ψθ0(θ − θ0) = o(‖θ − θ0‖) quandθ → θ0.

Theoreme 16 Soient Ψn et Ψ respectivement une suite de fonctions aleatoires et une fonc-tion de Θ dans L. On suppose que Ψ(θ0) = 0, que θ 7→ Ψ(θ) est Frechet-differentiable enθ0, que sa differentielle Ψθ0 admet une inverse continue Ψ−1

θ0, que Ψn(θn) = o∗P (n−1/2) et que

θnP ∗−→ θ0. On suppose que

√n(Ψn −Ψ)(θ0) converge en loi vers Z tendu et que

√n(Ψn −Ψ)(θn)−

√n(Ψn −Ψ)(θ0) = o∗P (1 +

√n‖θn − θ0‖).

Alors

√nΨθ0(θn − θ0) = −

√n(Ψn −Ψ)(θ0) + o∗P (1)

et√n(θn − θ0) converge en loi vers −Ψ−1

θ0Z.

Preuve:On a

√n(Ψ(θn)−Ψ(θ0)) =

√n(Ψ(θn)−Ψn(θn)) +

√nΨn(θn)−

√nΨ(θ0)

=√n(Ψ(θn)−Ψn(θn)) + o∗P (1)

= −√n(Ψn −Ψ)(θ0) + o∗P (1 +

√n‖θn − θ0‖). (11)

Ψθ0 admet une inverse continue donc il existe un c > 0 tel que ‖Ψθ0(θ − θ0)‖ > c‖θ − θ0‖pour tous θ, θ0. Ceci combine avec la Frechet-differentiabilite de θ 7→ Ψ(θ) en θ0 nous permetd’ecrire

c‖θ − θ0‖ < ‖Ψθ0(θ − θ0)‖ = ‖Ψθ0(θ − θ0)−Ψ(θ) + Ψ(θ0) + Ψ(θ)−Ψ(θ0)‖≤ o(‖θ − θ0‖) + ‖Ψ(θ)−Ψ(θ0)‖,

36

Page 37: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

d’ou c‖θ − θ0‖+ o(‖θ − θ0‖) ≤ ‖Ψ(θ)−Ψ(θ0)‖. Combinons ce resultat avec (11), il vient :

c√n‖θn − θ0‖+ o∗P (

√n‖θn − θ0‖) ≤

√n‖Ψ(θn)−Ψ(θ0)‖

≤√n‖(Ψn −Ψ)(θ0)‖+ o∗P (1 +

√n‖θn − θ0‖),

d’ou

√n‖θn − θ0‖(c+ o∗P (1)) ≤ OP (1) + o∗P (1 +

√n‖θn − θ0‖).

On en deduit que θn est√n-consistant pour θ0 en norme. Maintenant, par la Frechet-

differentiabilite de θ 7→ Ψ(θ), on a

√n(Ψ(θn)−Ψ(θ0)) =

√nΨθ0(θn − θ0) + o∗P (

√n‖θn − θ0‖) =

√nΨθ0(θn − θ0) + o∗P (1),

et d’apres (11),√nΨθ0(θn − θ0) = −

√n(Ψn − Ψ)(θ0) + o∗P (1). On conclut en utilisant la

continuite de Ψ−1θ0

.

On admettra le theoreme suivant, qui enonce des conditions pour la normalite asympto-tique d’une suite de M -estimateurs (i.e. d’estimateurs obtenus en maximisant une fonctionθ 7→ Pnmθ) consistante pour le maximum θ0 de θ 7→ Pmθ.

Theoreme 17 Soit Θ un ouvert de Rk. Soit x 7→ mθ(x) une fonction mesurable, telle queθ 7→ mθ(x) soit differentiable en θ0 pour P -presque tout x (on note sa derivee mθ0(x)). Onsuppose qu’il existe un voisinage U de θ0 tel que pour tous θ1, θ2 ∈ U , on ait

|mθ1(x)−mθ2(x)| ≤ l(x)‖θ1 − θ2‖,

ou l : x 7→ l(x) est une fonction mesurable verifiant Pl2 < ∞. On suppose que θ 7→ Pmθ

admet un developpement de Taylor d’ordre 2 au point θ0 (θ0 maximum de θ 7→ Pmθ) et que

sa derivee seconde est inversible. Si Pnmθn≥ supθ Pnmθ − oP (1/n) et θn

P−→ θ0, alors

√n(θn − θ0) = −V −1

θ0

1√n

n∑i=1

mθ0(Xi) + oP (1).

Par suite, √n(θn − θ0)

L−→ N (0, V −1θ0Pmθ0m

Tθ0V −1θ0

).

5.4 Maximum de vraisemblance

L’estimateur du maximum de vraisemblance (emv) est un exemple de M-estimateur.Ses proprietes asymptotiques se deduisent des resultats enonces ci-dessus. Neanmoins, dufait de son importance, nous soulignons maintenant les points specifiques a la methode dumaximum de vraisemblance. Un premier point concerne la condition selon laquelle la fonctionM : Θ −→ R a un maximum unique en θ0. Dans le cadre de l’emv, cette condition est unecondition d’identifiabilite.

37

Page 38: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Definition 8 Soit un modele statistique parametre (X,A, Pθ; θ ∈ Θ). Une valeur du pa-rametre θ0 ∈ Θ est identifiable si ∀θ 6= θ0, Pθ 6= Pθ0. Le modele est identifiable si pour tout(θ1, θ2) ∈ Θ2 tel que θ1 6= θ2, Pθ1 6= Pθ2.

Definition 9 L’information de Kullback d’une loi P = f · µ contre une loi Q = g · µ estdefinie par

K(P,Q) =

∫f log

(f

g

)dµ.

(On pose ln a0

= +∞ si a ∈ R+∗).

Proprietes 1 L’information de Kullback verifie les proprietes suivantes :

1. Pour tout (P,Q) ∈ P2, K(P,Q) ≥ 0.

2. K(P,Q) = 0⇔ P = Q.

Definition 10 On appelle distance de Hellinger entre les probabilites P et Q (de densitesrespectives f et g par rapport a µ) la quantite

H(P,Q) =

√∫ (√f −√g

)2

dµ.

Proprietes 2 La distance de Hellinger verifie les proprietes suivantes :

1. H2(P,Q) = 2(1−

∫ √fg dµ

). En particulier, H(P,Q) ≤

√2.

2. H2(P,Q) ≤ K(P,Q).

Preuve :

1. trivial

2. ∀x ≥ 0, log x ≤ 2(√x− 1), d’ou log

(gf

)≤ 2

(√gf− 1)

. Puis∫f log

(g

f

)dµ ≤ 2

∫f

√g

fdµ− 2 = 2

∫ √fg dµ− 2 = −H2(P,Q).

D’ou H2(P,Q) ≤ K(P,Q).

Soit X1, . . . , Xn un n-echantillon de loi Pθ0 . L’emv de θ0 est obtenu en maximisant la fonctionθ 7−→

∑ni=1 log f(Xi; θ), ou encore

θ 7−→Mn(θ) =1

n

n∑i=1

logf(Xi; θ)

f(Xi; θ0).

La fonction limite M est dans ce cas M(θ) = Eθ0

[log f(X;θ)

f(X;θ0)

]= −K(Pθ0 ,Pθ). On montre le

resultat suivant :

38

Page 39: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Proprietes 3 La fonction θ 7−→M(θ) = Eθ0

[log f(X;θ)

f(X;θ0)

]a un maximum unique en θ0 si et

seulement si θ0 est identifiable.

Preuve : M(θ) ≤ 0 et M(θ0) = 0 donc M atteint son maximum en θ0. De plus,

M(θ) = 0 ⇔ K(Pθ,Pθ0)⇔ Pθ = Pθ0⇔ θ = θ0 si θ0 est identifiable.

5.5 Entropie

Nous allons voir une autre condition pour avoir des classes de Glivenko Cantelli en tudiantl’entropie mtrique.

Definition 11 Soit G un ensemble de fonctions. On dfinit N(δ,G, ‖.‖) comme le nombre mi-nimal de boules (pour la norme ‖.‖) de rayon δ qui sont ncessaires pour recouvrir l’ensembleG. L’entropie mtrique H(δ,G, ‖.‖) est dfinie par H(δ,G, ‖.‖) = lnN(δ,G, ‖.‖).

Lemme 9 L’entropie d’une boule de rayon R dans Rd, note Bd(R), est majore par d ln

(4R + δ

δ

).

Preuve : On va construire une suite de points de la boule par rcurrence de la maniresuivante : on prend un point c0 dans cette boule puis on essaie de trouver un point c1 decette boule tel que d(c0, c1) > δ. On continue jusqu’ obtenir une suite maximale (cj) depoints de Bd(R) qui vrifie ∀i 6= j, ‖ci − cj‖ > δ.∀x ∈ Bd(R),∃ i tel que x ∈ B(ci, δ), sinon x serait un autre point de la suite (cj) suppose

maximale. Ainsi, par compacit de la boule Bd(R), il existe N tel que Bd(R) ⊂N⋃j=1

B(cj, δ).

On va regarder les boules B(ci,δ4).

On aN⋃j=1

B(cj,δ

4) ⊂ Bd(R+

δ

4) en considrant le cas o l’un des points cj se situe sur la frontire

de la boule. Ainsi V ol(N⋃j=1

B(cj,δ

4)) ≤ V ol(Bd(R +

δ

4)).

Or V ol(Bd(R)) = kdRd o kd = π

d2

Γ(1+ d2

). Comme les boules B(ci,

δ4) sont disjointes, on a

V ol(N⋃j=1

B(cj,δ

4)) = Nkd(

δ

4)d. D’o l’ingalit N ≤ (R+ δ

4)d

( δ4

)d.

D’o le rsultat :

H(δ, Bd(R), ‖.‖) ≤ d ln(4R + δ

δ).

39

Page 40: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Definition 12 L’espace de Sobolev Hs est l’espace des fonctions drivables s fois dont lesdrives successives sont dans L2(R).

Proposition 4 L’entropie d’une boule de l’espace de Sobolev Hs de rayon R est de l’ordre

de

(1

δ

) 1s

ln8R

δ.

Preuve : Pour calculer cette entropie, on va utiliser la dcomposition en srie de Fourier desfonctions de Hs. Soit f ∈ Hs. Alors f s’crit f =

∑cnen. Comme la sme drive de f est dans

L2(R), on a∑n2sc2

n <∞.Soit Hs(R) = f =

∑cnen,

∑n2sc2

n ≤ R une boule de Hs de rayon R, soit f ∈ Hs(R)et soit δ > 0. On cherche le nombre de fonctions fj ncessaires pour qu’il existe j tel que‖f − fj‖ ≤ δ.

Pour tout entier N > 0, on peut crire f sous la forme f = fN+f−fN , avec fN =∑n≤N

cnen.

Ainsi ‖f − fj‖ ≤ ‖fN − fj‖+ ‖f − fN‖. Nous allons montrer qu’il existe des entiers N pourlesquels ‖f − fN‖ ≤ δ

2. Il suffira donc de prendre ‖fN − fj‖ ≤ δ

2.

Puisque (en) est une base orthonorme, on a ‖f − fN‖2 = ‖∑n>N

cnen‖2 =∑n>N

c2n =

∑n>N

c2nn

2sn−2s.

Ainsi, ‖f − fN‖2 ≤ N−2s∑n>N

c2nn

2s ≤ N−2sR. Donc, pour tout N vrifiant N−2sR ≤ δ2

4(soit

N ≥ (4Rδ2

)12s ), on a ‖f − fN‖ ≤ δ

2.

Les fonctions fN =N∑n=0

cnen sont caractrises par les coefficients rels (cn)n=0,...,N . Ainsi, on

essaie de recouvrir une boule de RN+1 de rayon R par des boules de rayon δ2. Par le lemme

prcdent, on a N( δ2, BN+1(R), ‖ · ‖) ≤ (

4R+ δ2

δ2

)N+1 = (8R+δδ

)N+1. D’o H( δ2, BN+1(R), ‖ · ‖) ≤

(N + 1) ln(8R+δδ

) et N ≥ (4Rδ2

)12s .

Donc

H(δ,Hs(R), ‖ · ‖) ∼δ→0

(1

δ)

1s ln(

8R

δ).

Remarque 16 Sur cette formule, on voit que, lorsque s augmente, l’entropie diminue. Doncplus l’espace est rgulier, plus il est facile d’avoir un contrle dessus.

Definition 13 Soit G un ensemble de fonctions. On suppose qu’on a une famille de (gLj , gUj ),

j ∈ [|1, N |], telle que, pour toute fonction g ∈ G, il existe un indice j tel que gLj 6 g 6 gUj et||gLj − gUj ||1 6 δ.On dfinit NB(δ,G, ||.||) comme le nombre minimal de fonctions qui sont ncessaires pourrecouvrir l’ensemble G par les cylindres (gLj , g

Uj ) de taille δ pour la norme ||.||. L’entropie

crochets HB(δ,G, ||.||) est dfinie par HB(δ,G, ||.||) = lnNB(δ,G, ||.||).

Proposition 5 Soit G un ensemble de fonctions tel que HB(δ,G, ||.||L1(P )) < +∞. Alors Gest de Glivenko-Cantelli.

40

Page 41: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Preuve : Soit N = NB(δ,G, L1(P)). Comme HB(δ,G, L1(P)) <∞ on a N <∞.Soit g ∈ G. On veut montrer que sup

g∈G|Png − Pg| tend en probabilit vers 0. Pour cela, on va

tudier le cylindre dans lequel se situe g. On sait qu’il existe j ∈ 1, . . . , N tel que gLj ≤ g ≤ gUjet ‖gUj − gLj ‖1 ≤ δ. On a donc

|Png − Pg| =∣∣∣∣∫ g dPn −

∫g dP

∣∣∣∣ =

∣∣∣∣∫ g d(Pn − P)

∣∣∣∣ .Comme g ≤ gUj , on a

∫g d(Pn − P) ≤

∫gUj dPn −

∫gUj dP +

∫gUj dP−

∫g dP.

D’o∫g d(Pn − P) ≤

∫gUj d(Pn − P) +

∫(gUj − g) dP.

Comme g ≥ gLj , |∫g d(Pn − P)−

∫gUj d(Pn − P)| ≤ |

∫(gUj − gLj ) dP| ≤ ‖gUj − gLj ‖1 ≤ δ.

D’o∫g d(Pn − P) ≤

∫gUj d(Pn − P) + δ.

En utilisant cette fois une minoration de g par gLj , on obtient∫g d(Pn − P) ≥

∫gLj d(Pn − P) +

∫(gLj − g) dP ≥

∫gLj d(Pn − P) +

∫(gLj − gUj ) dP.

D’o |∫gLj d(Pn − P)−

∫g d(Pn − P)| ≤ |

∫(gUj − gLj ) dP| ≤ ‖gUj − gLj ‖1 ≤ δ.

D’o∫g d(Pn − P) ≥

∫gLj d(Pn − P)− δ.

Finalement, on a∫gLj d(Pn − P)− δ ≤

∫g d(Pn − P) ≤

∫gUj d(Pn − P) + δ.

Ainsi, ∀δ > 0, maxj=1...N

∫gLj d(Pn − P)− δ ≤ sup

g∈G

∫g d(Pn − P) ≤ max

j=1...N

∫gUj d(Pn − P) + δ.

Par la loi des grands nombres applique aux fonctions gUj et gLj ,∫gUj d(Pn − P) et∫

gLj d(Pn−P) convergent en probabilit vers 0. N tant fini, on a donc maxj=1...N

∫gUj d(Pn − P)

et maxj=1...N

∫gLj d(Pn − P) convergent en probabilit vers 0, d’o le rsultat cherch.

41

Page 42: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

6 Ingalits uniformes de dviation (concentration)

6.1 Chebychev

Proposition 6 Soit X une variable alatoire relle. Pour toute fonction ϕ : R → R+ crois-

sante, alors P(X > a) >E[ϕ(X)]

ϕ(a).

6.2 Hoeffding

Proposition 7 Soient (X1, . . . , Xn) des variables indpendantes relles telles que, pour touti ∈ [|1, n|], ai 6 Xi 6 bi.

Alors, pour tout λ > 0, P(n∑i=1

Xi > λ) 6 exp

(− 2λ2∑n

i=1(ai − bi)2

).

6.3 Bernstein

Proposition 8 Soient (X1, . . . , Xn) des variables relles telles que, pour tout i ∈ [|1, n|],E[Xi] = 0 et σ2

i = E[X2i ].

S’il existe K tel que, pour tout m ∈ N, E[|Xi|m] 6m!

2Km−2σ2

i , alors

P(n∑i=1

Xi > a) 6 exp

(− a2

2(aK + b2)

)

o b2 =n∑i=1

σ2i .

6.4 Symtrisation

Soit X une variable alatoire valeurs dans X . On en prend des copies indpendantes :

(X1, . . . , Xn) et (X ′1, . . . , X′n). On note Pn =

1

n

n∑i=1

δXi et P′n =1

n

n∑i=1

δX′i . On note galement

G = g : X → R. Enfin, on pose ‖Pn − P‖G = supg∈G|Png − Pg|.

On va utiliser des rsultats sur ‖Pn − P′n‖G pour contrler ‖Pn − P‖G.

Lemme 10 (Symtrisation en moyenne) E [‖Pn − P‖G] 6 E [‖Pn − P′n‖G] .

Lemme 11 (Symtrisation en probabilit) Si, pour tout g ∈ G, P(‖Png − Pg‖ > δ

2

)6

1

2, alors P (‖Pn − P‖G > δ) 6 2P

(‖Pn − P′n‖G >

δ

2

).

42

Page 43: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

7 Annexes

7.1 Integrale superieure et probabilite exterieure

7.1.1 Introduction

Soit T un ensemble. On note l∞(T ) l’espace des fonctions definies sur T , a valeurs reelles,et bornees. On munit l∞(T ) de la norme uniforme ‖ ·‖T : si z ∈ l∞(T ), ‖z‖T := supt∈T |z(t)|.L’espace l∞(T ) intervient naturellement dans l’etude des processus stochastiques a trajec-toires bornees.

Rappelons qu’un processus stochastique indexe par T est une collection X(t), t ∈ Tde variables aleatoires X(t) : Ω → X definies sur le meme espace de probabilite (Ω,B,P).Fixons l’alea ω ∈ Ω qui genere tout le processus. La fonction t ∈ T → X(t)(ω) := X(t, ω)est appelee trajectoire du processus. Si chacune des trajectoires est bornee, on peut aussivoir le processus comme une v.a. X : Ω −→ l∞(T ) a valeurs dans l’espace des trajectoires.

Neanmoins, il faut prendre garde au fait que X, considere comme une application de Ωdans l∞(T ), n’est plus forcement mesurable. Par exemple, considerons le processus X(t) =1U≤t, t ∈ [0, 1], ou U a la loi uniforme sur [0, 1]. Prenons Ω = [0, 1], B les boreliens de[0, 1] et P la loi uniforme sur [0, 1]. Une autre facon d’envisager ce processus consiste a le voircomme une application X : [0, 1] −→ l∞([0, 1]). Munissons l∞([0, 1]) de sa tribu borelienne.Notons H ⊂ [0, 1] une partie qui ne soit pas un borelien, et posons A = ∪s∈HBs(

12), ou

Bs(12) = g ∈ l∞([0, 1]) : ‖g − fs‖[0,1] <

12 est la boule ouverte de centre fs : t 7−→ 1s≤t et

rayon 12. A est un ouvert de l∞([0, 1]). Notons maintenant que ‖fs1 − fs2‖[0,1] vaut 0 ou 1,

selon que s1 = s2 ou s1 6= s2. Alors X−1(A) = u ∈ [0, 1] : X(u) ∈ A = H. Comme H n’estpas un borelien, X n’est pas mesurable.

Ce probleme intervient notamment dans l’etude des processus empiriques, dont voici unexemple. Soit U1, . . . , Un des variables aleatoires i.i.d. de loi uniforme sur [0, 1]. Considerons,pour t ∈ [0, 1], la fonction (aleatoire)

Fn(t) =1

n

n∑i=1

1[0,t](Ui),

et posonsXn(t) =

√n(Fn(t)− t

).

Nous venons de voir que l’on pouvait considerer Fn et Xn comme des fonctions aleatoiresde [0, 1]n dans l∞([0, 1]). Elles sont meme a valeurs dans l’espace (de Skorohod) D([0, 1]) ⊂l∞([0, 1]) des fonctions cadlag sur [0, 1]. On peut montrer qu’aucune de ces deux applicationsn’est mesurable lorsque D([0, 1]) est muni de la norme uniforme. La tribu borelienne D surD([0, 1]) est trop grande, et l’on a pas X−1

n (D) ⊂ Bn. Ce probleme de mesurabilite se posesouvent lorsque l’espace des trajectoires n’est pas separable.

La definition classique de la convergence en loi ne peut donc etre utilisee pour le processusempirique Xn, vu comme une fonction aleatoire a valeurs dans (D([0, 1]), ‖ · ‖[0,1]). On peutimaginer plusieurs approches pour lever ce probleme :

1. Affaiblir la topologie de D([0, 1]), par exemple en le munissant de la topologie deSkorohod (voir Skorohod, Billingley, Dudley),

43

Page 44: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

2. Affaiblir la definition de convergence en loi. Par exemple, Pyke et Shorack proposentde considerer seulement les fonctions f continues bornees pour lesquelles f(Xn) estune application mesurable.

Ces differentes approches ne permettent malheureusement pas de traiter les processus empi-riques generaux. Nous allons maintenant presenter l’idee introduite par Hoffmann-Jorgensen,qui permet d’echapper aux contraintes de mesurabilite des processus et de taille des tribus.

7.1.2 Integrale superieure

Definition 14 Soit (Ω,A,P) un espace de probabilite et T une application quelconque de Ωdans R. T n’est pas supposee mesurable. L’integrale superieure de T par rapport a P est :

E∗T = infEU : U ≥ T, U : Ω→ R mesurable et EU existe .

Remarque 17 “EU existe” signifie qu’au moins l’une des deux quantites EU− ou EU+ estfinie, ou U+ = max(U, 0) et U− = max(−U, 0). Dans ce cas, EU = EU+ − EU−. Il se peutdonc que E∗T = ±∞.

L’existence d’un “majorant mesurable minimal” T ∗ de T est assuree par le lemme suivant.Ce majorant mesurable minimal est unique a une egalite P-ps pres.

Lemme 12 (admis) Soit T : Ω −→ R. Il existe une application mesurable T ∗ : Ω −→ Rtelle que

1. T ∗ ≥ T ,

2. pour toute applicaton mesurable U : Ω −→ R telle que T ≤ U p.s., on a T ∗ ≤ U p.s..

De plus, si T ∗ verifie 1. et 2., et si ET ∗ existe, E∗T = ET ∗.

Soit (D, d) un espace metrique muni de sa tribu borelienne T . On note Cb(D) l’ensemble desfonctions reelles continues, bornees, et definies sur D. Soit (Ωn, An, Pn) une suite d’espaces deprobabilite et pour chaque n, soit Xn : Ωn −→ D une application quelconque (en particulier,nous ne supposons pas que les Xn sont mesurables). Soit X : (Ω,A,P) → (D, T ) uneapplication mesurable. Nous definissons la convergence faible de la suite (Xn) vers X de lamaniere suivante :

Definition 15 La suite (Xn) converge faiblement vers l’application mesurable X si

∀f ∈ Cb(D), E∗f(Xn) −→ Ef(X).

Un cas particulier d’integrale superieure est la probabilite (mesure) exterieure, obtenue enappliquant la definition 14 a T = 1B, pour B ⊂ Ω quelconque, non necessairement mesu-rable. Notons que la langue anglaise utilise le meme terme “outer” pour designer l’integralesuperieure (“outer integral”, aussi appelee “outer expectation”) et la probabilite exterieure(“outer probability”).

Definition 16 La probabilite exterieure d’un sous-ensemble quelconque B de Ω est

P∗(B) = infP(A) : B ⊂ A, A ∈ A.

44

Page 45: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Le lemme suivant donne les liens entre integrale et probabilite exterieures.

Lemme 13 (Admis) Soit B un sous-ensemble quelconque de Ω. Alors

1. P∗(B) = E∗1B,

2. il existe un ensemble mesurable B∗ ⊃ B tel que P(B∗) = P∗(B), et on a 1B∗ = (1B)∗.

Remarque 18 On definit de maniere analogue les notions d’integrale inferieure et de pro-babilite interieure, en remplacant inf par sup et U ≥ T par U ≤ T dans les definitionsprecedentes. On note E∗ l’integrale inferieure, et on a E∗T = −E∗(−T ). Le lecteur interessepourra se reporter au chapitre 1.2 de l’ouvrage de van der Vaart et Wellner (1996).

Definition 17 (Autres modes de convergence) Soit Xn : Ω −→ D une suite d’applica-tions et X : Ω −→ D une application mesurable.

1. Xn converge en P∗-probabilite vers X si pour tout ε > 0, P∗(d(Xn, X) > ε) −→ 0. On

note XnP∗−→ X.

2. Xn converge *-p.s. vers X si il existe une suite de v.a. (∆n) telle que d(Xn, X) ≤ ∆n

pour tout n, et ∆n converge p.s. vers 0. On note Xn∗−p.s.−→ X.

7.2 Processus empiriques

7.2.1 Introduction

Un processus empirique est un processus stochastique base sur un echantillon aleatoire.Soit X1, X2, . . . une suite de variables aleatoires reelles i.i.d. de loi P , definies sur l’espace pro-babilise (Ω, C,P). On note F la fonction de repartition de P , definie par F (t) = P ((−∞, t]) =P(ω : X(ω) ≤ t). A l’echantillonX1, . . . , Xn, on associe une mesure empirique Pn(ω) definiepar

Pn(ω) =1

n

n∑i=1

δXi(ω)

et une fonction de repartition empirique Fn(ω)(·) : R→ [0, 1] definie par

Fn(ω)(t) = Pn(ω)(]−∞, t]) =1

n

n∑i=1

1Xi(ω)≤t.

Notons bien que Pn est une variable aleatoire a valeurs dans l’ensemble des lois de proba-bilite sur R, et que Fn est une variable aleatoire a valeurs dans l’ensemble des fonctions derepartition sur R.Pour tout ω ∈ Ω, Pn(ω) est donc une probabilite sur R, de fonction de repartition Fn(ω)(·).Par la suite, on omettra ω dans les notations. Ainsi, on notera Pn(A) = 1

n

∑ni=1 δXi(A) =

cardi ≤ n : Xi ∈ A/n et Fn(t) = Pn(]−∞, t]) = 1n

∑ni=1 1Xi≤t.

On appelle processus empirique reel la quantite αn =√n (Fn − F ). Une realisation αn(ω)

de la fonction aleatoire αn est une fonction t 7−→ αn(t) appelee trajectoire du processus.

45

Page 46: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Pour tout t, les variables aleatoires 1Xi≤t sont des Bernoulli B(F (t)) independantes,donc nFn(t) est binomiale B(n, F (t)), de sorte que

E(Fn(t)) = F (t) et V(Fn(t)) =F (t)(1− F (t))

n.

De plus,

∀t ∈ R, Fn(t)p.s.−→ F (t) et αn(t)

L−→ N (0, F (t)(1− F (t))).

Le TCL multivarie assure de plus que pour tout (t1, . . . , tk) ∈ Rk, (αn(t1), . . . , αn(tk))converge en loi vers un vecteur gaussien centre, de matrice de variance-covariance (Vi,j), ouVi,j = F (ti ∧ tj)−F (ti)F (tj) (Vi,j = cov(1X≤ti, 1X≤tj) = P(X ≤ ti, X ≤ tj)−F (ti)F (tj)).

7.2.2 Theoremes de Glivenko-Cantelli et Donsker

La quantite aleatoire supt∈R |Fn(t) − F (t)| = ‖Fn − F‖∞ est connue sous le nom destatistique de Kolmogorov-Smirnov et le resultat suivant est connu sous le nom de :

Theoreme 18 (Theoreme de Glivenko-Cantelli, 1933) Soit X1, X2, . . . une suite devariables aleatoires i.i.d. de fonction de repartition F . Alors

‖Fn − F‖∞p.s.−→ 0.

De meme, on peut s’interroger sur l’existence d’un theoreme central limite “uniforme”, ou“fonctionnel”. On note D[−∞,∞] l’espace des fonctions cadlag (espace de Skorohod) munide la norme du supremum.

Theoreme 19 (Theoreme de Donsker, 1952) Soit X1, X2, . . . une suite de v.a. i.i.d. defonction de repartition F . Alors la suite de processus empiriques αn converge en loi dansD[−∞,∞] vers un processus gaussien GF centre et de fonction de covariance

cov(GF (s), GF (t)) = E(GF (s)GF (t)) = F (s ∧ t)− F (s)F (t), ∀s, t ∈ R.

Les theoremes de Glivenko-Cantelli et Donsker pour le processus empirique reel peuvent etrevus comme des cas particuliers de resultats generaux pour des processus empiriques indexespar des classes de fonctions.

7.2.3 Processus empirique indexe par des fonctions

Considerons de nouveau X,X1, X2, . . . une suite de variables aleatoires i.i.d. de loi P sur(X ,A), et soit F ⊂ L1(P ) une classe de fonctions mesurables de X dans R. Notons :

∀f ∈ F , Pf = Ef(X) =

∫f dP et Pnf =

1

n

n∑i=1

f(Xi) =

∫f dPn.

Le processus stochastique

√n(Pn − P )(f), f ∈ F

46

Page 47: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

ou√n(Pn−P )(f) = 1√

n

∑ni=1(f(Xi)−Pf), s’appelle processus empirique (centre normalise)

indexe par F . On le notera par la suite Gn =√n(Pn − P ), ou Gnf, f ∈ F. C’est une

fonction aleatoire de F dans R.Si X = R, le processus αn(t), t ∈ R peut etre re-exprime comme Gnf, f ∈ F, ou

F = 1x≤t, t ∈ R. Ainsi, on peut voir le processus empirique reel comme indexe par t ∈ Rou par f ∈ F .

Pour f ∈ F , la loi forte des grands nombres assure que Pnfp.s.−→ Pf , et une classe de

fonctions F pour laquelle une version uniforme de ce resultat existe est appelee classe deGlivenko-Cantelli.

Definition 18 (Classe de Glivenko-Cantelli) Une classe F ⊂ L1(P ) de fonctions me-surables f : X −→ R est dite P-Glivenko-Cantelli si

‖Pn − P‖F = supf∈F|Pnf − Pf |

∗−p.s.−→ 0.

Remarque 19 Une classe de fonctions Glivenko-Cantelli fournit une loi des grands nombresuniforme, car

limn→∞

supf∈F

∣∣∣∣∣ 1nn∑i=1

f(Xi)− Ef(X)

∣∣∣∣∣ = 0 p.s.

controle une infinite de loi des grands nombres simultanement.

Remarque 20 La distance aleatoire ‖Pn−P‖F n’est pas forcement mesurable, d’ou l’utili-sation, pour contourner cette difficulte, de la convergence ∗−p.s.. Fest aussi dite P-Glivenko-Cantelli lorsque la convergence a lieu en P∗−probabilite.

Par le TCL, on a GnfL−→ N (0, P (f − Pf)2) (si Pf 2 <∞), et d’apres le TCL multidimen-

sionnel, on a pour tout ensemble fini (f1, . . . , fk) de fonctions de F telles que Pf 2i <∞,

(Gnf1, . . . ,Gnfk)L−→ (Gf1, . . . , Gfk),

ou (Gf1, . . . , Gfk) est un vecteur gaussien sur Rk, d’esperance nulle et de covariances P (fifj)−PfiPfj.

Nous supposerons par la suite que

supf∈F|f(x)− Pf | <∞, ∀x ∈ X ,

de sorte que le processus Gn soit a valeurs dans l∞(F), que l’on munira de la norme ‖H‖F =supf∈F |H(f)|. Nous allons nous interesser a la convergence faible de Gn dans l∞(F).

Rappelons qu’une suite de processus Zn(f), f ∈ F converge en loi dans l∞(F) vers leprocessus Z(f), f ∈ F si pour toute fonction h continue et bornee de l∞(F) dans R, ona : E∗h(Zn) −→ Eh(Z).

Le theoreme suivant donne des CNS pour la convergence en loi du processus Zn(f), f ∈F.

47

Page 48: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Theoreme 20 (Convergence en loi de processus) La suite de processus Zn(f), f ∈F converge en loi dans l∞(F) si et seulement les conditions suivantes sont verifiees :

– Pour toute famille finie f1, . . . , fk de F , (Zn(f1), . . . , Zn(fk)) converge en loi dans Rk

(convergence des marginales finies-dimensionnelles),– La famille

(Zn(f), f ∈ F

)est asymptotiquement equicontinue, c’est-a-dire ∀ε >

0, ∀δ > 0, il existe un recouvrement fini de F : F = ∪Ni=1Fi tel que

lim supnP∗(

supi

supf∈Fi, g∈Fi

|Zn(f)− Zn(g)| ≥ ε)≤ δ.

Definition 19 (Classe de Donsker) Une classe F ⊂ L2(P ) de fonctions mesurables f :X −→ R est dite P-Donsker si la suite de processus Gnf, f ∈ F converge en loi dansl’espace l∞(F) vers un processus Gf, f ∈ F. Le processus limite G est un processus gaus-sien centre de fonction de covariance cov(Gf1, Gf2) = P (f1f2) − Pf1Pf2, appele P -pontbrownien.

Remarque 21 Une classe de Donsker fournit un TCL uniforme car le TCL usuel

√n

(1

n

n∑i=1

f(Xi)− Pf

)L−→ N (0, var(f(X)))

est verifie “conjointement” pour tous les f ∈ F .

Remarque 22 Par continuite de la norme, la convergence en loi de Gn implique ‖Gn‖FL−→

‖G‖F , donc n−1/2‖Gn‖FL−→ 0. D’ou la convergence en probabilite, et finalement, ‖Pn −

P‖FP−→ 0, donc toute classe de Donsker est aussi une classe de Glivenko-Cantelli.

Exemple 11 (Le processus empirique reel)

Soit F = ft = 1(−∞,t], t ∈ R la classe des indicatrices des demi-droites (−∞, t]. On voitaisement que Pnft = n−1

∑ni=1 1Xi≤t = Fn(t), donc le processus empirique indexe par F se

ramene au processus empirique reel αn, et la classe F est Donsker.

7.2.4 Entropie et entropie a crochet

Soit E une classe de fonctions f : X → R, munie d’une norme ‖ · ‖, et soit F ⊂ E . Onrappelle que pour 1 ≤ r < ∞, Lr(P ) designe l’ensemble des fonctions g : X → R tellesque ‖g‖r,P = [

∫X |g(x)|r dP (x)]1/r <∞. Pour une classe F , etre ou ne pas etre de Glivenko-

Cantelli ou de Donsker depend de la “taille” de cette classe. Dans le paragraphe suivant,nous donnons un moyen de mesurer la taille d’une classe.

Definition 20

1. Si ε > 0, on note N(ε,F , ‖ · ‖) le nombre minimum de boules de rayon ε necessaires

pour recouvrir F (i.e. F ⊂ ∪N(ε,F ,‖·‖)i=1 B(fi, ε), pour des points fi ∈ E. Notons que les

centres des boules ne sont pas forcement des points de F).On appelle entropie (sans crochet) de F la quantite

log(N(ε,F , ‖ · ‖

)).

48

Page 49: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

2. Pour deux fonctions l et u, le crochet [l, u] est l’ensemble des fonctions f telles quel ≤ f ≤ u.

3. Un ε−crochet pour la norme ‖ · ‖ est un crochet verifiant ‖u− l‖ ≤ ε.

4. On note N[]

(ε,F , ‖ · ‖

)le nombre minimum de ε−crochets necessaires pour recouvrir

F (les bornes des crochets ne sont pas forcement des points de F). On appelle entropiea crochet la quantite

log(N[]

(ε,F , ‖ · ‖

)).

Remarque 23 Si la norme possede la propriete de Riesz (|f | ≤ |g| =⇒ ‖f‖ ≤ ‖g‖) alorson a

N(ε,F , ‖ · ‖

)≤ N[]

(2ε,F , ‖ · ‖

).

En effet, si f appartient au 2ε−crochet [l, u], alors f appartient a la boule de centre l+u2

etrayon ε. Il n’existe pas en general d’inegalite inverse.

Definition 21 (Fonction enveloppe) On dit qu’une fonction mesurable F : X → R+ estune enveloppe de F si supf∈F |f(x)| ≤ F (x), ∀x.

Theoreme 21 (Entropie a crochet) Soit F une classe de fonctions mesurables. Si pourtout ε > 0, N[]

(ε,F , L1(P )

)<∞, alors F est P -Glivenko-Cantelli.

Preuve:Soit ε > 0. Par hypothese il existe un nombre fini de ε−crochets [li, ui] qui recouvrent F ettels que P (ui− li) < ε. Ainsi pour toute fonction f ∈ F , il existe un crochet [li, ui] contenantf , c’est-a-dire li ≤ f ≤ ui. Alors

(Pn − P )f ≤ (Pn − P )ui + P (ui − f) ≤ (Pn − P )ui + ε.

Un raisonnement analogue permet de montrer que

mini

(Pn − P )li − ε ≤ (Pn − P )f ≤ maxi

(Pn − P )ui + ε,

d’ou

‖Pn − P‖F = supf∈F|Pnf − Pf | ≤ |max

i(Pn − P )ui|+ |min

i(Pn − P )li|+ 2ε

puis

‖Pn − P‖∗F ≤ |maxi

(Pn − P )ui|+ |mini

(Pn − P )li|+ 2ε.

Par la loi forte des grands nombres, le terme de droite tend presque surement vers 2ε (nepas oublier que les min et max sont pris sur un nombre fini de fonctions). D’ou

lim supn‖Pn − P‖∗F ≤ 2ε p.s

pour tout ε > 0, d’ou ‖Pn − P‖∗Fp.s.−→ 0.

49

Page 50: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Remarque 24 Une classe finie de fonctions integrables est Glivenko-Cantelli.

On definit l’integrale entropique a crochet a l’echelle δ (δ > 0) comme la quantite

J[](δ,F , L2(P )) =

∫ δ

0

√logN[](ε,F , L2(P )) dε.

Intuitivement, une classe F sera Donsker si l’entropie a crochet logN[](ε,F , L2(P )) ne ”croıtpas trop vite quand ε tend vers 0”. L’integrale entropique a crochet permet de mesurer cettevitesse.

Theoreme 22 (admis) Soit F une classe de fonctions mesurables. Si F admet une enve-loppe F telle que PF 2 <∞, et si J[](∞,F , L2(P )) <∞, alors F est P-Donsker.

Exemple 12

Le processus empirique indexe par F = ft = 1(−∞,t], t ∈ R est le processus empiriquereel. Pour tout ε > 0, on peut trouver un ensemble fini de reels −∞ = t1 < t2 < . . . <tm = ∞ tels que F (tj−) − F (tj−1) ≤ ε pour tout 1 < j ≤ m, F (t1) = 0, F (tm−) = 1, ouF (t−) = lims↑t F (s). On peut choisir les tj de sorte que m ≤ 1 + 1

ε. Considerons la collection

de crochets [lj, uj], 1 < j ≤ m, avec lj(x) = 1(−∞,tj−1](x) et uj(x) = 1(−∞,tj)(x) (notons queuj /∈ F). Tout f ∈ F appartient a un crochet [lj, uj] et ‖uj − lj‖1,P = F (tj−)− F (tj−1) ≤ ε.D’ou N[](ε,F , L1(P )) <∞ pour tout ε > 0, et F est Glivenko-Cantelli.

Les ε-crochets que l’on vient d’introduire verifient

‖uj − lj‖2,P = (‖uj − lj‖1,P )12 ≤ ε

12 .

D’ou le nombre de L2(P ) ε-crochets necessaires pour recouvrir F est majore par 1 + 1ε2

puisqu’un L1(P ) ε2-crochet est un L2(P ) ε-crochet. Notons que pour ε ≥ 1, le nombre de

crochets necessaires est 1. J[](∞,F , L2(P )) sera fini si∫ 1

0

√log(1 + 1

ε2) dε <∞. En utilisant le

fait que log(1+x) ≤ 1+log x pour x ≥ 1/(exp(1)−1)(≈ 0.582), et le changement de variable

u =√

1 + log( 1ε2

), on montre que∫ 1

0

√log(1 + 1

ε2) dε est majoree par 2

∫∞0u2 exp(−u2

2) du =

√2π. Donc F est Donsker.

Exemple 13

Soit F = fθ : θ ∈ Θ ⊂ L2(P ) une classe de fonctions mesurables indexee par un ensembleborne Θ de Rd. On suppose qu’il existe une fonction mesurable m telle que

∀θ1, θ2 ∈ Θ, |fθ1(x)− fθ2(x)| ≤ m(x)‖θ1 − θ2‖

et ‖m‖2,P <∞. Alors F est Donsker.

On peut recouvrir Θ par des boules de centres θi et rayon δ (i = 1, . . . , K (diamΘ/δ)d),ou les θi constituent une grille de pas δ sur Θ. Alors ∀θ ∈ Θ, il existe un θi tel que‖θ − θi‖ ≤ δ, ce qui entraıne que fθi(x) − δm(x) ≤ fθ(x) ≤ fθi(x) + δm(x). Chaque

50

Page 51: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

fθ ∈ F est donc inclus dans un crochet [fθi − δm, fθi + δm] de taille ‖fθi + δm − (fθi −δm)‖2,P = 2δ‖m‖2,P , et N[](2δ‖m‖2,P ,F , L2(P )) ≤ K (diamΘ/δ)d d’ou N[](ε,F , L2(P )) ≤K (2‖m‖2,P · diamΘ/ε)d ≤ cste/εd.

Notons que pour ε ≥ 2‖m‖2,P diamΘ, le nombre de crochets necessaires est 1. En effet,soit fθ ∈ F . On a : ‖θ1 − θ‖ ≤ diamΘ d’ou |fθ1(x) − fθ(x)| ≤ m(x) diamΘ. Ainsi, fθest dans le crochet [fθ1 − m diamΘ, fθ1 + m diamΘ], et ce pour tout fθ ∈ F . De plus,‖fθ1 +m diamΘ− (fθ1 −m diamΘ)‖2,P = 2‖m‖2,P diamΘ.

D’ou∫∞

0

√logN[](ε,F , L2,P ) dε <∞ et F est Donsker.

Cas de la loi forte

Notation 2 Soit Q une mesure de probabilite et F une classe de fonction on note

‖Q‖F = supQ|f | : f ∈ F.

Cas du T.C.L.Soit Hn ∈ l∞(F) c’est a dire que Hn : F → R et que supf∈F |Hn(f)| <∞.

Definition 22 (Convergence en loi de processus) On dit que Hn converge en loi versH dans l∞(F) si• H est une variable aleatoire de l∞(F).• Pour toute famille finie f1, . . . , fk de F on a(

Hn(f1), . . . ,Hn(fk)) L−→

(H(f1), . . . ,H(fk)

).

• La famille(Hn(f), f ∈ F

)est asymptotiquement equicontinue. C’est a dire ∀ε > 0, ∀δ > 0,

il existe un recouvrement fini de F = ∪Ni=1Fi tel que

limn

P∗(

supi

supf∈Fi, g∈Fi

|Hn(f)−Hn(g)| ≥ ε)≤ δ.

Remarque 25 Cette definition n’est pas la definition “classique” de la convergence en loides processus. En general on definit la convergence en loi des processus comme on le faitpour la convergence en loi des variables aleatoires (les espaces qui interviennent alors sontassez obscurs). La definition que nous donnons est dans ce cas une facons de caracteriser laconvergence en loi.

Remarque 26 Si Hn = Gn alors on connait la loi des finies dimensionnelles par le T.L.C.vectoriel Nk(0,Σ) avec Σi,j = P(fi−Pfi)P(fj−Pfj). Alors si on l’equicontinuite asymptotiquele processus limite est un processus Gaussien appele le pont Brownien.

Definition 23 (Classes de Donsker) On appelle classe de Donsker toute classe de fonc-

tion F telle GnL−→ G dans l∞(F).

Remarquons que si F est de cardinal fini, elle est de Donsker.

51

Page 52: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

7.3 Symetrisation

Soient ε1, . . . , εn des variables aleatoires i.i.d. de Rademacher (i.e. P(εi = 1) = P(εi =−1) = 1/2). On suppose de plus les (εi)i independantes des (Xi)i.Le processus empirique centre est defini par

f 7→ (Pn − P)f =1

n

n∑i=1

(f(Xi)− Pf

).

Le processus empirique symetrise est defini par

f 7→ Ponf =1

n

n∑i=1

εif(Xi).

Si on conditionne par rapport a Xi on voit que les deux processus sont centres.

Lemme 14 (Symetrisation Admis) Pour toute fonction φ convexe croissante et touteclasse de fonction F mesurable, on a

E∗φ(‖Pn − P‖F

)≤ E∗φ

(2‖Pon‖F

).

7.3.1 Espaces d’Orlicz

La preuve du Theoreme 23 qui donne une condition par une classe F d’etre Glivenko-Cantelli en fonction du nombre d’entropie sans crochet est beaucoup plus technique quela preuve precedente et necessite l’introduction des normes d’Orlicz que nous presentonsmaintenant brievement.

Definition 24 Soit ψ une fonction convexe croissante verifiant ψ(0) = 0, et X une variablealeatoire. On definit alors la norme d’Orlicz de X par

‖X‖ψ = infC > 0 : E(ψ( |X|C

))≤ 1.

Remarque 27• Si ψ(x) = |x|p, pour p ≥ 1, on retrouve la norme Lp.• Dans la suite on utilisera les normes d’Orlicz pour les fonctions ψp(x) = exp(|x|p)− 1.

Lemme 15 On a pour p ≤ q

‖X‖p ≤ ‖X‖ψp‖X‖ψp ≤ ‖X‖ψq

(log 2

)p/q.

52

Page 53: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

Preuve:La premiere inegalite devient une evidence une fois que l’on a remarque que pour x ≥ 0, xp ≤ψp(x), en effet on a alors 1 ≤ E

(ψ( |X|C

))avec C = ‖X‖p.

Considerons la fonction φ definie pour x ≥ 0 et p ≤ q par

φ(x) = exp(

ln 21−p/q ln(x+ 1)p/q)− 1.

Alors on a φ(ψq(

ln 21/qx))

= ψp(

ln 21/px). Supposons que φ soit concave alors par Jensen

pour tout C > 0 on aEψp

(CX ln 21/p

)≤ φEψq

(CX ln 21/q

).

Pour C = ‖X‖ψq ln 2−1/q, le terme de droite vaut 1 car φ(1) = 1. Et on en deduit alors que

‖X‖ψp ≤ ‖X‖ψq ln 2p/q.

Il reste maintenant a montrer que φ est concave. On ecrit φ(x) = exp(g(x)

)− 1 avec

g(x) = c ln(x+ 1)d (c et d < 1), φ sera concave si g′(x)2 + g′′(x) ≤ 0. Calculons les derivees

de g,

g′(x) = cdln(x+ 1)d

(x+ 1) ln(x+ 1)et g

′′(x) = cd ln(x+ 1)d

d− ln(x+ 1)− 1

(x+ 1)2 ln(x+ 1)d

Comme

g′(x)2 + g′′(x) = cd

ln(x+ 1)d

(x+ 1)2 ln(x+ 1)d

(cd ln(x+ 1) + d− ln(x+ 1)− 1

),

on voit que son signe ne depend que du signe de h(x) = cd ln(x + 1) + d − ln(x + 1) − 1.Comme c = ln 21−p/q et d = p/q, un calcul rapide montre que h(x) ≤ 0. Ce qui acheve lapreuve.

Lemme 16 Soit ψ une fonction convexe croissante non nulle verifiant ψ(0) = 0 et

lim supx,y→∞

ψ(x)ψ(y)/ψ(cxu) <∞

pour une constante c > 0. Alors pour toutes variables aleatoires X1, . . . , Xm,

‖ max1≤i≤m

Xi‖ψ ≤ Kψ−1(m) maxi‖Xi‖ψ,

ou K est une constante dependant seulement de ψ.

Preuve:On commence par supposer que pour x ≥ 1 et y ≥ 1, ψ(x)ψ(y) ≤ ψ(cxu). Dans ce casψ(x/y) ≤ ψ(cx)/ψ(y) pour tout x ≥ y ≥ 1. Ainsi pour tout y ≥ 1 et tout C,

maxψ( |Xi|Cy

)≤ max

[ψ(c|Xi|/C)

ψ(y)+ ψ(

|Xi|Cy

)1l |Xi|Cy

<1

]≤∑ ψ(c|Xi|/C)

ψ(y)+ ψ(1).

53

Page 54: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

On prend C = cmaxi ‖Xi‖ψ, et on integre

Eψ(max |Xi|

Cy

)≤ m

ψ(y)+ ψ(1).

Si ψ(1) ≤ 12, on choisit y = ψ−1(2m) et alors

Eψ(max |Xi|

Cy

)≤ 1.

Ainsi‖max |Xi|‖ψ ≤ ψ−1(2m)cmax ‖Xi‖ψ.

Sinon il existe τ > 0, tel que φ(x) = ψ(τx) verifie φ(1) ≤ 1/2. On applique le resultat a φ eton conclut en remarquant que

‖X‖ψ ≤ ‖X‖φ/τ = ‖X‖ψ/τ.

Lemme 17 (Hoeffding) Soient a1, . . . , an des constantes et ε1, . . . , εn des variables aleatoiresde Rademacher. Alors

P( ∣∣∣∑ εiai

∣∣∣ > x)≤ 2 exp

(− x2

2‖a‖2

),

‖a‖ est la norme eucliedienne des ai. De plus, ‖∑εiai‖ψ2 ≤

√6‖a‖.

Preuve:En utilisant un developpement en series entieres de la fonction exponentielle on montre queE exp(λε) ≤ exp(λ2/2). On utilise Markov pour montrer que pour tout λ > 0

P(∑

i

aiεi > x)≤ exp(−λx) exp

(λ2‖a2‖/2

).

On optimise alors en λ pour obtenir la borne exponentielle. La majoration de la norme ψ2

est un consequence directe du lemme suivant.

Lemme 18 Si p ≥ 1 et X verifie P(|X| > x) ≤ K exp(−Cxp) alors ‖X‖ψp ≤ ((1+K)/C)1/p.

Preuve:On applique Fubini

E(

exp(D|X|p)− 1)

= E∫ |X|p

0

DeDsds =

∫ ∞0

P(|X| > s1/p)DeDsds.

On applique ensuite l’hypothese et on conclut aisement.

54

Page 55: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

7.3.2 Glivenko-Cantelli et entropie sans crochet

Definition 25 Une classe F est dite P−mesurable si pour tout n et tout vecteur (e1, . . . , en) ∈−1, 1n, l’application

(X1, . . . , Xn) 7→ ‖n∑i=1

eif(Xi)‖F

est mesurable dans le complete de(Ωn,An,Pn

).

Theoreme 23 (Entropie sans crochet) Soit F une classe de fonctions P−mesurable,soit F une fonction enveloppe pour F verifiant P∗F <∞.Soit FM = f1lF≤M, f ∈ F. Si pour tout ε > 0 et tout M > 0

logN(ε,FM , L1(Pn)

)= o∗P(n)

Alors ‖Pn − P‖∗F converge vers zero p.s. et en esperance. En particulier F est Glivenko-Cantelli.

Preuve:On commence par appliquer le lemme de symetrisation avec φ(x) = x

E∗‖Pn − P‖F ≤ 2E∗‖ 1

n

n∑i=1

εif(Xi)‖F .

Comme F est P−mesurable et que les εi sont independant des Xi le E∗ du terme de droiteest une vraie esperance et on peut donc appliquer Fubini.

Apparte :Si on n’avait pas l’hypothese de P−mesurabilite,on aurait une esperance exterieure pour laquelleFubini n’est pas valable, en effet pour pouvoirappliquer Fubini on a besoin d’hypotheses demesurabilites assez fortes.

E∗‖Pn − P‖F ≤ 2EXEε‖1

n

n∑i=1

εif(Xi)‖F .

On ecrit maintenant f(Xi) = f(Xi)1lF≤M + f(Xi)1lF>M puis on utilise correctementl’inegalite triangulaire :

E∗‖Pn − P‖F ≤ 2EXEε‖1

n

n∑i=1

εif(Xi)‖FM + 2P ∗F1lF>M.

Pour M suffisament grand le deuxieme terme du membre de droite est aussi petit que l’onveut, donc pour montrer la convergence L1, il nous reste a montrer que le premier terme dumembre de droite converge vers zero pour tout M fixe. Soit R, un recouvrement de FM par

55

Page 56: Cours de Statistique asymptotique · 2 Convergences en Statistique Asymptotique 2.1 Caract erisation de la convergence en loi et Th eor eme de l’image continue Lemme 3 …

des boules de rayon ε, on note G l’ensemble des centres de ces boules. Ainsi toute fonctionf ∈ F il existe g ∈ G, ‖f − g‖ ≤ ε. Le cardinal de G est par construction N

(ε,FM , L1(Pn)

)et

Eε‖1

n

n∑i=1

εif(Xi)‖FM ≤ Eε‖1

n

n∑i=1

εif(Xi)‖G + ε.

Par lemme 15 on peut majorer la norme L1 par la norme de Orlics ψ2, puis on utilisel’inegalite maximale (lemme 16), on obtient

Eε‖1

n

n∑i=1

εif(Xi)‖FM ≤ C√

1 + logN(ε,FM , L1(Pn)

)supf∈G‖ 1

n

n∑i=1

εif(Xi)‖ψ2|X + ε.

On aplique maintenant Hoeffding (lemme 17) et on obtient,

Eε‖1

n

n∑i=1

εif(Xi)‖FM ≤ C√

1 + logN(ε,FM , L1(Pn)

)√ 6

nsupf∈G

(Pnf 2)1/2 + ε.

Or par hypothese sur FM les fonctions sont bornees par M et donc

Eε‖1

n

n∑i=1

εif(Xi)‖FM ≤ C√

1 + logN(ε,FM , L1(Pn)

)√ 6

nM + ε.

Par hypothese le membre de droite converge en P∗ probabilite vers ε et par suiteEε‖ 1

n

∑ni=1 εif(Xi)‖FM converge en P∗ probabilite vers zero. Par convergence dominee son

esperance par rapport aux (Xi)i converge vers zero. On vient de prouver la convergence enmoyenne, on obtient la convergence p.s. en remarquant que ‖Pn−P‖∗F est une sous-martingaleinverse (cette derniere affirmation n’est pas triviale on renvoie le lecteur a l’ouvrage de Vander Vaart et Wellner lemme 2.4.5 page 124 pour une preuve de celle-ci).

7.4 Conditions pour qu’une classe F soit Donsker.

7.4.1 Utilisation de l’entropie sans crochet

Definition 26 (Condition d’entropie uniforme) Soient F une classe de fonctions et Fune enveloppe, on dit que F verifie la condition d’entropie uniforme si∫ ∞

0

supQ

√logN

(ε‖F‖Q,2,F , L2(Q)

)dε <∞.

Le sup est pris sur toutes les mesures de probabilites Q dont le support est discret fini sur(χ,A) avec n‖F‖Q,2 = inf F 2dQ > 0.

Theoreme 24 Soit F une classe de fonctions verifiant la condition d’entropie uniforme.Pour δ > 0 on definit la classe Fδ = f − g : f, g ∈ F , ‖f − g‖P,2 < δ. On suppose que lesclasses Fδ et F∞ sont P−mesurable. Si P∗F 2 <∞, alors F est P−Donsker.

56