14
     Abstract Keywords:  Variance, variogram, estimation  1 Introduc tion  2 2 Para mètr es d’une distribution  3 2.0.1 Para mètre de positi on ( location)  . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.0.2 Moye nne arithmétique  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2. 0. 3 di ane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2. 0. 4 Mo de  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.0.5 Para mètres de disper sion spread  . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.0.6 Étend ue de variation ( range)  . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.0.7 V ari ance ( variance)  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2. 0. 8 Ecar t type (standard deviation)  . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.0.9 Moments et coecients d’une distribution  . . . . . . . . . . . . . . . . . . . . 6 2.0.10 Coe cients d’une distribution  . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.0.11 Moments d’une distribution  . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.0.12 Quant iles  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Mes ur e de l a d épe ndance  7 3.1 Covaria nce  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1.1  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 Repr ésent ation graph ique  7 4.1 Histo gramme de fréque nce  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.2 Boî te à mou stache ou  Box-plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.3 Q-Q Plot et Droite de Henry  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.3.1 Pro bab ili ty plo t  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4. 3. 2 Q- Q Pl ot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 5 Loi de dis tri bution  10 5.1 Fonc tion de densité de p robab ilité (  pdf )  . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.2 Fonc tion de distri buti on (cdf )  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.3 Lois discrètes et conti nues  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 5.3.1 Loi s discrètes  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 5.3.2 Loi s con tin ues  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5.4 Théro rème Central Limite  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

03 Basic Statistic

Embed Size (px)

Citation preview

Page 1: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 1/14

 

S t a t i s q u e s d e b a s e  

J u l y 8 , 2 0 1 1  

Abstract

Keywords: Variance, variogram, estimation

C o n t e n t s  

1 Introduction 2

2 Paramètres d’une distribution 3

2.0.1 Paramètre de position (location) . . . . . . . . . . . . . . . . . . . . . . . . . 32.0.2 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.0.3 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.0.4 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.0.5 Paramètres de dispersion spread  . . . . . . . . . . . . . . . . . . . . . . . . . 52.0.6 Étendue de variation (range) . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.0.7 Variance (variance) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.0.8 Ecart type (standard deviation) . . . . . . . . . . . . . . . . . . . . . . . . . . 52.0.9 Moments et coefficients d’une distribution . . . . . . . . . . . . . . . . . . . . 62.0.10 Coefficients d’une distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 62.0.11 Moments d’une distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.0.12 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Mesure de la dépendance 7

3.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Représentation graphique 7

4.1 Histogramme de fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.2 Boîte à moustache ou Box-plot  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.3 Q-Q Plot et Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.3.1 Probability plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.3.2 Q-Q Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5 Loi de distribution 10

5.1 Fonction de densité de probabilité ( pdf ) . . . . . . . . . . . . . . . . . . . . . . . . . 105.2 Fonction de distribution (cdf ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105.3 Lois discrètes et continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.3.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.4 Thérorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Page 2: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 2/14

 

6 Intervalles de confiance 13

6.1 Intervalles de confiance d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . 136.1.1 Grand échantillon (n ≥ 30), loi quelconque . . . . . . . . . . . . . . . . . . . 136.1.2 Petit échantillon (n ≤ 30), loi normale . . . . . . . . . . . . . . . . . . . . . . 136.1.3 Petit échantillon (n ≤ 30), loi quelconque . . . . . . . . . . . . . . . . . . . . 14

6.2 Intervalles de confiance d’un pourcentage . . . . . . . . . . . . . . . . . . . . . . . . 14

6.2.1 Grand échantillon (npetnq ≥ 5) . . . . . . . . . . . . . . . . . . . . . . . . . 146.2.2 Petit échantillon (npetnq ≤ 5) . . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.3 Intervalles de confiance d’une diff érence entre deux moyennes . . . . . . . . . . . . . 146.3.1 Grands échantillons (n Aetn B ≥ 30) . . . . . . . . . . . . . . . . . . . . . . . . 146.3.2 Petits échantillons (n Aetn B ≤ 30) . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.4 Intervalles de confiance de tout ce que vous voulez . . . . . . . . . . . . . . . . . . . 146.4.1 Méthode de ré-échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 146.4.2 Technique du Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.4.3 Technique du Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1 . I n t r o d u c t i o n  

En théorie de l’estimation, il s’agit de distinguer soigneusement trois concepts diff érents :

les paramètres de la population comme la moyenne µ dont la valeur est certaine mais inconnuesymbolisés par des lettres grecques.

les résultats de l’échantillonnage comme la moyenne ¯ x dont la valeur est certaine mais connuesymbolisés par des minuscules.

les variables aléatoires des paramètres, comme la moyenne aléatoire ¯ X dont la valeur est incer-taine puisque aléatoire mais dont la loi de probabilité est souvent connue et symbolisées par desmajuscules.

On peut étudier la variabilité du phénomène en répétant une expérience ou une mesure dans lesmêmes conditions.

On peut étudier la loi du phénomène en faisant varier les conditions d’expérience ou d’observation.

2

Page 3: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 3/14

 

Figure 1: Variabilité du phénomène et loi du phénomène.

Processus déterministe : Processus dans lequel un antécédent produit toujours le même eff et.Processus stochastique (aléatoire) : Processus qui, pour un antécédent donné, peut produire plusieurs

eff ets, chacun ayant une probabilité déterminée.

2 . P a r a m è t r e s d ' u n e d i s t r i b u t i o n  

Figure 2: Inférence statistique.

2 . 0 . 1 . P a r a m è t r e d e p o s i t i o n (  l o c a t i o n   ) 

2 . 0 . 2 . M o y e n n e a r i t h m é t i q u e  

 µ x = E ( x) est la moyenne de la distribution théorique des éléments x.¯ X  désigne la moyenne arithmétique d’une population finie comportant N éléments (N = eff ectif).

Mêmes unités physiques que x.¯ x désigne la moyenne arithmétique de n éléments, (n = eff ectif) tirés d’une population finie ou

infinie. Mêmes unités que x. (Peut-être estimé à partir des fréquences et des moyennes de centre declasses).

2 . 0 . 3 . M é d i a n e  

La médiane Me x est la valeur de la variable qui se situe au centre de la série statistique, classée enordre croissant. La médiane sépare la série en deux groupes d’égale importance.

3

Page 4: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 4/14

 

Definition de la médiane Me x : P( X  ≤ Me x) ≥ 1/2P( X  ≥ Me x) ≥ 1/2

(1)

Si le nombre d’observation est pair, par convention, on utilise la moyenne des deux observationsde la série pour définir la médiane.

2 . 0 . 4 . M o d e  

Pour une variable méristique comportant naturellement peu de classes, on trouve la classe la plusfréquente. Sa valeur est le mode.

Pour une variable quantitative continue, on divise celle-ci en classes. Ainsi, pour les données dela gélinotte huppée (Scherrer p. 108, 138), la classe modale est la classe de 155 à 160 mm; sonindice de classe est 157,5 mm. Une formule (eq. 4-5) permet de calculer le mode corrigé.

Pour les variables qualitatives, le mode correspond à la classe ayant la plus forte fréquence(Scherrer p. 153-154). On dit qu’une distribution de fréquences a plusieurs modes si on veutmettre en évidence le fait qu’elle a plusieurs classes non contiguës dont la fréquence est nette-ment plus élevée que celle des autres classes.

Figure 3: Mode.

Table 1: Comparaison entre la moyenne, la médiane et le mode.

Moyenne (¯ x) Médiane ( Me x) Mode ( Mo x)Calcul Facile Difficile (il faut trier

les données)Difficile (facile surun graphique)

Valeurs exceptées Aff ectent beaucoupsa valeur

Aff ectent peu savaleur

Aff ectent peu savaleur

Intérêt principal x est plus efficace (p.325) que Me

Plus précise que Mo Pour décrire unedistribution pluri-modale. Peut êtrecalculé pour vari-ables circulaires etpour var. qualitatives

Moins aff ectée que x

par les valeurs ex-trêmes

La moyenne obéit au principe des moindres carrés (A. M. Le Gendre, 1805; K. F. Gauss, 1809).On peut montrer (Scherrer p. 146) que c’est la moyenne qui possède cette propriété et qui minimisela somme des carrés des écarts entre les valeurs observées et le paramètre de tendance centrale . Pourla moyenne, cette somme est toujours inférieure ou égale à la somme des carrés des écarts entre lesvaleurs observées et la médiane ou le mode:

ni=1

( xi − ¯ x)2 ≤n

i=1

( xi − Me x)2 (2)

ni=1

( xi − ¯ x)2 ≤n

i=1

( xi − Mo x)2 (3)

4

Page 5: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 5/14

 

2 . 0 . 5 . P a r a m è t r e s d e d i s p e r s i o n   s p r e a d  

2 . 0 . 6 . É t e n d u e d e v a r i a t i o n (  r a n g e   ) 

Synonyme: plage de variation. Même unités physiques que x. Calcul: valeur maximum – valeurminimum

2 . 0 . 7 . V a r i a n c e (  v a r i a n c e   ) 

σ2 ou Var ( x) pour une population ou une distribution théorique.s2

 x pour un échantillon (variance estimée).Pour une population statistique d’eff ectif  N dont la moyenne vraie est connue par théorie ou par

hypothèse, on utilise la formule suivante:

σ2=

1 N 

· N i=1

( xi −  µ)2 (4)

Pour un échantillon d’eff ectif n ou pour une population d’eff ectif N dont on doit estimer la moyenneà l’aide de ¯ x, on utilise la formule :

S 2

 x=

1

n − 1

n

i=1

( xi −

¯ x)2 (5)

Unités physiques: celles de la variable x au carré.La valeur (n − 1) s’appelle le nombre de degrés de liberté. On soustrait 1 pour éliminer le biais dû

au fait qu’on doit utiliser les données x une première fois pour calculer la moyenne, avant le calcul dela variance. On peut montrer que, sans cette correction, la variance serait toujours sous-estimée.

Biais d’un estimateur statistique (Scherrer p. 85): Un estimateur statistique est non biaisé si lamoyenne des valeurs de cet estimateur pour tous les sous-ensembles possibles de taille n est égale à lavaleur de l’estimateur pour toute la population.

Table 2: Variance biasée et non-biasée.

Moyenne s2x(n) s2x(n - 1)

1, 2, 4, 5 3.00E+00 2,5 3,3333’1, 2 1,5 0,25 0,51, 4 2,5 2,25 4,51, 5 3,0 4,00 8,02, 4 3,0 1,00 2,02, 5 3,5 2,25 4,54, 5 4,5 0,25 0,5

Moyenne 3.00E+00 1,6666’ 3,3333’

Conclusion: les estimateurs moyenne et variance (n − 1) ne sont pas biaisés. L’estimateur variance(n) est biaisé.

Propriétés de la variance -. Si tous les xi sont égaux, la variance est nulle puisque tous les termescomposant la somme sont nuls.

s2 x augmente à mesure que la variabilité augmente. La variance mesure donc bien la variabilité des

données.Pour estimer la variance, on doit disposer au moins de deux observations. Avec une seule observa-

tion, (n − 1) = 0 et la valeur de s2 x devient indéterminée. La formule correspond bien à notre intuition :

on ne peut rien conclure quant à la variabilité d’une variable à partir d’une seule observation.Les unités physiques de la variance sont celles de la variable x au carré.

2 . 0 . 8 . E c a r t t y p e (  s t a n d a r d d e v i a t i o n   ) 

Symbole : σ2 pour une population ou une distribution théorique, s x pour un échantillon. Formule :

S  x =

S 2 x (6)

Unités physiques: celles de la variable x.

5

Page 6: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 6/14

 

 Erreur standard ou écart type de la moyenne -. Écart type de la moyenne (erreur standart) :

S ¯ x =S  x

n(7)

On retrouve les erreurs standards sous forme de « barre d’erreur » dans la plupart des graphiquesscientifiques.

Exemple : Valeur de l’échantillon = [1;2;3;4] ; Moyenne : m = 3 ; erreur standard = 1, 08. On peutécrire : « m = 3 ± 1, 08 »

 Ecart type d’un pourcentage -. Notation : e.s. =

 pq

n−1 avec p = 1 − q.

On écrira donc : « pourcentage ± e.s. », p.ex. « 10 ± 2% » ou bien « 10% ± 2% ».

Coe fficient de variation (coefficient of variation) -. Symbole : C .V ., CV  ou V  Formule :

C .V . =100 · S  x

¯ x(8)

Unités physiques: aucune, puisque les unités du numérateur annulent celles du dénominateur. Lecoefficient de variation permet donc de comparer la variation de variables exprimées originellement

dans des unités physiques diff érentes.L’équation 8 n’a de sens que pour les variables quantitatives à échelle de variation relative à un vraizéro.

L’équation 8 est la plus souvent utilisée quoiqu’il s’agisse d’un estimateur biaisé du coefficient devariation. Le biais n’a d’importance que dans le cas des petits échantillons. Une formule corrigeant cebiais est disponible (Scherrer, eq. 4-25).

Certains auteurs et certains logiciels ne font pas la multiplication par 100. Dans ce cas, le C .V . pourcet exemple serait 0, 0384.

2 . 0 . 9 . M o m e n t s e t c o e c i e n t s d ' u n e d i s t r i b u t i o n  

2 . 0 . 1 0 . C o e c i e n t s d ' u n e d i s t r i b u t i o n  

Il est souvent utile de centrer les valeurs d’une variable sur la moyenne. L’écart de la moyenne pour

une observation i, xi − ¯ x, s’appelle aussi un moment central, ou moment par rapport à la moyenne.La moyenne possède la propriété que la somme des moments, N 

i=1( xi − ¯ x), ou somme des écarts àla moyenne, est 0. Cette notion sert de base à la définition d’une série de statistiques des moments.

Moment d’ordre k :

mk  =

 N i=1

( xi − ¯ x)k  (9)

Le moment de deuxième ordre, m2, est la variance d’une distribution théorique. La variance d’unéchantillon d’eff ectif n, corrigée pour le biais d’estimation de la moyenne , est dérivée de m2 :

S 2 x =

1

n − 1

n

i=1

( xi

−¯ x)2 (10)

2 . 0 . 1 1 . M o m e n t s d ' u n e d i s t r i b u t i o n  

Coe fficient d’asymétrie (skewness) -. Symbole : α3

Le coefficient d’asymétrie mesure le manque de symétrie d’une distribution. On l’obtient à partirdu moment de troisième ordre. Le moment de troisième ordre estimé pour un échantillon d’eff ectif n,avec correction pour le biais d’estimation de la moyenne, est :

k 3 =nn

i=1( xi − ¯ x)3

(n − 1)(n − 2)(11)

Coefficient d’asymétrie:

α3 =

k 3

S 3 x

(12)

Propriétés :6

Page 7: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 7/14

 

α3 = 0 pour une distribution symétrique.

α3 < 0 pour une queue de distribution étalé vers la droite.

α3 > 0 pour une queue de distribution étalée vers la gauche.

Note: diff érentes corrections ont été proposées pour le moment de troisième ordre. Diff érents logi-

ciels statistiques (StatView, SPSS, SAS, etc.) peuvent employer des formules de correction diff érentes,ce qui peut mener à des résultats numériques qui diff èrent légèrement.

Coe fficient d’aplatissement (kurtosis) -. Symbole: α3

Le coefficient d’aplatissement mesure le degré d’aplatissement d’une distribution. On l’obtient àpartir du moment de quatrième ordre.

Le moment de quatrième ordre estimé pour un échantillon d’eff ectif n, avec correction pour le biaisd’estimation de la moyenne, est :

k 4 =n(n + 1)

ni=1( xi − ¯ x)4 − 3(n − 1)(

ni=1( xi − ¯ x)2)2

(n − 1)(n − 2)(n − 3)(13)

Coeffi

cient d’aplatissement :

α4 =k 4

S 4 x

(14)

Propriétés:

α4 = 0 pour une distribution normale.

α4 > 0 pour une distribution leptokurtique (i.e., plus pointue que la courbe normale).

α4 < 0 pour une distribution platikurtique (i.e., plus aplatie que la courbe normale).

α4 = −1, 2 pour une distribution uniforme (i.e. rectangulaire).

2 . 0 . 1 2 . Q u a n t i l e s  

Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. Ondéfinit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dansl’ordre croissant, que l’on divise en 4, 10 ou 100 parties de même eff ectif.

On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la populationdes 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids estau-delà du centile 90, ou en deçà du centile 10, doit être l’objet d’un suivi particulier.

Definition d’un quantile x p : P( X  ≤ x p) ≥ p

P( X  ≥ x p) ≥ 1 − p(15)

3 . M e s u r e d e l a d é p e n d a n c e  

3 . 1 . C o v a r i a n c e  

3 . 1 . 1 .  

4 . R e p r é s e n t a t i o n g r a p h i q u e  

4 . 1 . H i s t o g r a m m e d e f r é q u e n c e  

Ce qui est important est : le nombre d’eff ectifs (doit être assez important) ainsi que le nombre declasses et leur étendue.

Avec l’histogramme de fréquence (= la distribution empirique), on peut aussi tracer la fonction dedensité correspondante (= la distribution théorique) pour apprécier le rapprochement entre la distribu-tion théorique et la distribution empirique.

Estimation de la moyenne à l’aide de la moyenne empirique

¯ x =1 x

i=1

( xi) (16)

7

Page 8: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 8/14

 

On utilise l’estimateur non-biaisé de l’écart-type

s =

1

n − 1

ni=1

( xi − ¯ x)2 (17)

On trace la loi normal de moyenne ¯ x et de variance s (N 

( ¯ x, s)).

4 . 2 . B o î t e à m o u s t a c h e o u   B o x - p l o t  

La boîte à moustaches, appelé également diagramme en boîte, est un moyen rapide de figurer leprofil essentiel d’une série statistique quantitative.

La boîte à moustaches est un outil graphique très pratique représentant une distribution empiriqueà l’aide de quelques paramètres de localisation : la médiane ( Me x), le 1er (Q1) et 3ème (Q3) quartile.

Les extrémités des moustaches sont délimités par 1, 5 fois l’intervalle inter-quartile (Q3 − Q1). Celapermet de déceler l’existence d’un point extrême. Cette règle de détection est plus fiable que la fameuserègle des 3-sigma qui consiste à isoler les points en-deçà ou au-delà de 3-fois l’écart-type autour dela moyenne. En eff et, elle ne repose pas sur une hypothétique symétrie de la distribution, elle utiliseégalement des paramètres de localisation (les quartiles) qui, à la diff érence de la moyenne empirique,sont peu influencés par les points extrêmes1.

Figure 4: Boîte à moustache ou box-plot .

4 . 3 . Q - Q P l o t e t D r o i t e d e H e n r y  

Le Q-Q plot, quantile-quantile plot, est une technique graphique qui permet de comparer les distri-butions de deux ensembles de données. Si on compare deux sets de données entre eux alors cette méth-

ode s’appellerait Q-Q Plot . Si on compare un set de données avec une distribution théorico-empirique,il s’agirait plutôt d’un probability plot 23 .

Figure 5: Left: Q-Q plot; right: normal probability plot.

1Source Ricco Rakotomalala, Tests de normalités, internete r i c . u n i v - l y o n 2 . f r / r i c c o / c o u r s / c o u r s / T e s t _  

N o r m a l i t e . p d f  

2Pour plus de renseignement, voir h t t p : / / w w w . i t l . n i s t . g o v / d i v 8 9 8 / h a n d b o o k / e d a / s e c t i o n 3 / q q p l o t . h t m  

3Voir également la discussion a propos de l’article anglais Q-Q Plot de Wikipediah t t p : / / e n . w i k i p e d i a . o r g / w i k i / Q - Q _ p l o t  

8

Page 9: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 9/14

 

4 . 3 . 1 . P r o b a b i l i t y p l o t  

Adéquation d’une distribution à une loi théorique (vérification).The data are plotted against a theoretical distribution in such a way that the points should form

approximately a straight line. Departures from this straight line indicate departures from the specifieddistribution.

The probability plot is used to answer the following questions 4:

Does a given distribution, such as the Weibull, provide a good fit to my data?

What distribution best fits my data?

What are good estimates for the location and scale parameters of the chosen distribution?

Concrètement, dans le cas d’une comparaison avec une distribution théorique, il s’agit:

1. de trier les données de manière croissante pour former la série x(i) ;2. à chaque valeur x(i), nous associons la fonction de répartition empirique F i =

i−0,375n+0,25

5;3. nous calculons les quantiles successifs z∗(i) d’ordre F i en utilisant l’inverse de la loi normale centrée

et réduite ;4. enfin, les données initiales n’étant pas centrées et réduites, nous dé-normalisons les données en

appliquant la transformation x∗(i) = zz ∗(i) ·s + ¯ x.

Si les données sont compatibles avec la loi normale, les points ( x(i); x∗(i)) forment une droite, ditedroite de Henry, alignés sur la diagonale principale6.

Table 3: Autre fonction de répartition empirique.

Nom α FormuleWeibull 0 r 

n+1Cunnane 0.4 r −0,4

n+0,2

Gringorten 0.44 r −0,44n+0,12

Hazen 0.5 r −0,5n

4 . 3 . 2 . Q - Q P l o t  

The quantile-quantile (q-q) plot is a graphical technique for determining if two data sets come frompopulations with a common distribution.

A q-q plot is a plot of the quantiles of the first data set against the quantiles of the second data set.By a quantile, we mean the fraction (or percent) of points below the given value. That is, the 0 .3 (or30%) quantile is the point at which 30% percent of the data fall below and 70% fall above that value.

A 45-degree reference line is also plotted. If the two sets come from a population with the samedistribution, the points should fall approximately along this reference line. The greater the departurefrom this reference line, the greater the evidence for the conclusion that the two data sets have comefrom populations with diff erent distributions.

The advantages of the q-q plot are:

The sample sizes do not need to be equal.

any distributional aspects can be simultaneously tested. For example, shifts in location, shifts inscale, changes in symmetry, and the presence of outliers can all be detected from this plot. Forexample, if the two data sets come from populations whose distributions diff er only by a shift inlocation, the points should lie along a straight line that is displaced either up or down from the45-degree reference line.

The q-q plot is similar to a probability plot. For a probability plot, the quantiles for one of the datasamples are replaced with the quantiles of a theoretical distribution 7

4Source : h t t p : / / w w w . i t l . n i s t . g o v / d i v 8 9 8 / h a n d b o o k / e d a / s e c t i o n 3 / p r o b p l o t . h t m  

5Pour d’autres fonctions de répartitions empiriques, voir cours Hydrologie générale, Prof. André Musyh t t p : / / e c h o . e p f l . c h / e - d r o l o g i e / c h a p i t r e s / a n n e x e s / A n a l F r e q u . h t m l  

6Source Ricco Rakotomalala, Tests de normalités, internet e r i c . u n i v - l y o n 2 . f r / r i c c o / c o u r s / c o u r s / T e s t _  

N o r m a l i t e . p d f  

7Source:h t t p : / / w w w . i t l . n i s t . g o v / d i v 8 9 8 / h a n d b o o k / e d a / s e c t i o n 3 / q q p l o t . h t m .  

9

Page 10: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 10/14

 

5 . L o i d e d i s t r i b u t i o n  

Figure 6: Relations entre les distributions statistiques les plus importantes.

5 . 1 . F o n c t i o n d e d e n s i t é d e p r o b a b i l i t é (  p d f  ) 

Figure 7: Fonction de densité de probabilité.

5 . 2 . F o n c t i o n d e d i s t r i b u t i o n (  c d f  ) 

Figure 8: Fonction de distribution.

10

Page 11: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 11/14

 

5 . 3 . L o i s d i s c r è t e s e t c o n t i n u e s  

5 . 3 . 1 . L o i s d i s c r è t e s  

Figure 9: Lois discrètes.

11

Page 12: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 12/14

 

5 . 3 . 2 . L o i s c o n t i n u e s  

Figure 10: Lois continues.

5 . 4 . T h é r o r è m e C e n t r a l L i m i t e  

8

Théorème Central-Limite

Soient n variable aléatoire X 1, X 2 . . . X n :

Indépendante deux à deux; distribué selon la même densité de probabilité;

ayant la même moyenne µ et la même variance σ2.

On pose : Y = X 1 +  X 2 + . . . +  X n Z =

Y −n µ√ nσ2

Alors, Z → N (0, 1) quand n tend vers l’infini.

La variable Y  est simplement la somme de n variables X  qui ont toutes la même moyenne µ et lamême variance σ2. Si les variables sont indépendantes les unes des autres, alors la moyenne µ y de cette

8Plus de détail, voir Statistique pour les statophobes de Denis Poinsot:h t t p : / / p e r s o . u n i v - r e n n e s 1 . f r / d e n i s . p o i n s o t / S t a t i s t i q u e s %  

2 0 p o u r % 2 0 s t a t o p h o b e s / S T A T I S T I Q U E S % 2 0 P O U R % 2 0 S T A T O P H O B E S . p d f  

12

Page 13: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 13/14

 

somme sera la somme des n moyennes ( µ y = µ + µ +  µ . . . = n µ) et la variance σ y de cette somme serala somme de n variances (σ2

 y = σ2+ σ2

+ σ2 . . . = nσ2)Si la moyenne de votre variable aléatoire est µ et sa variance σ2, en appliquant la règle selon laque-

lle var (cX ) = c2var ( X ) avec c = 1/n, vous pouvez en déduire que la moyenne m de votre échantillonde taille n sui une loi normale N ( µ, σ2

n).

Une moyenne suit une loi approximativement normale dès lors qu’elle est établie à partir d’un

échantillons d’une trentaine d’individu ou plus.

6 . I n t e r v a l l e s d e c o n a n c e  

un intervalle de confiance est un intervalle qui est supposé contenir, avec un certain degré de con-fiance, la valeur à estimer. Par exemple, un intervalle de confiance à 95% (ou au seuil de risque de 5%) a 95% de chance de contenir la valeur du paramètre que l’on cherche à estimer mais cet intervalle deconfiance est trompeur dans 5% des cas.

Exemple:

Soit une population X dont on estime la moyenne par la moyenne d’un échantillon ¯ x.

6 . 1 . I n t e r v a l l e s d e c o n a n c e d ' u n e m o y e n n e  

6 . 1 . 1 . G r a n d é c h a n t i l l o n (  n ≥ 30

) , l o i q u e l c o n q u e  

Puisque n > 30 la moyenne ¯ x suit une loi normale N ( µ, σ2

n). σ2 peut être approximé par la variance

de l’échantillon S 2 x.

¯ x ∼ N ( µ,S 2

 x

n)

On cherche l’interval [ ¯ xu; ¯ xo] dans lequel la moyenne ¯ x a 95% de chance de s’y trouver :P( ¯ xu ≤ ¯ x ≤ ¯ xo) = 1 − α

On standardise ¯ x : ¯ x− µσ√ 

n

∼ N (0, 1)

Ce qui donne : P(− z(1− α2 ) ≤ ¯ x− µ

σ√ n

≤ z(1− α2 )) = 1 − α

D’où: P( ¯ x − z(1− α2 ) · σ√ 

n ≤ µ ≤ ¯ x + z(1− α2 ) · σ√ 

n ) = 1 − αL’intervalle de confiance de niveau 1 − α de la moyenne est :

[ ¯ x − z α2

· σ√ n

; ¯ x + z α2

· σ√ n

] (18)

 µ = ¯ x ± zα

s2

 x

n(19)

6 . 1 . 2 . P e t i t é c h a n t i l l o n (  n ≤ 30

) , l o i n o r m a l e  

Puisque la variable suit une loi normale, nous avons ¯ x ∼ N ( µ, σ2

n). Mais comme l’échantillon est

petit, estimer σ2 par son estimateur S 2 x serait sous-estimer la taille réelle de l’échantillon de confiance.

Dans ce cas, la variable centrée-réduite (t =

¯ x

− µs2n )suit la loi de Studen-Fisher (loi t ) de degrée de liberté

(d.d.l.) (degree of freedom "d.f.") 1 − n.Ainsi l’intervalle de confiance de niveau 1 − α de la moyenne est:

[ ¯ x − t α2 ,(n−1)ddl · σ√ 

n; ¯ x + t α

2 ,(n−1)ddl · σ√ n

] (20)

 µ = ¯ x ± t α,(n−1)ddl

s2

 x

n(21)

13

Page 14: 03 Basic Statistic

5/14/2018 03 Basic Statistic - slidepdf.com

http://slidepdf.com/reader/full/03-basic-statistic 14/14

 

6 . 1 . 3 . P e t i t é c h a n t i l l o n (  n ≤ 30

) , l o i q u e l c o n q u e  

Le calcul d’un intervalle de confiance en utilisant la loi du t de Student reste approximativementvalable même si la loi suivie par la variable aléatoire n’est pasexactement une loi normale. L’importantest (entre autres) que la distribution du caractère ne soit pas trop dissymétrique. En pratique, cesconditions approchées sont souvent vérifiées (regardez donc vos données), et vous pourrez alors utiliserle t  de Student même sans avoir des courbes en cloche impeccables. Faites le cependant en ayant

conscience de l’approximation commise, et du fait que vous êtes en train de pousser une méthode dansses limites.

En revanche, vous pouvez être face à une distribution qui s’écarte fortement de la loi normale, lasolution consiste à utiliser la technique de re-échantillonnage dite du bootstrap.

6 . 2 . I n t e r v a l l e s d e c o n a n c e d ' u n p o u r c e n t a g e  

6 . 2 . 1 . G r a n d é c h a n t i l l o n (  npetnq ≥ 5

6 . 2 . 2 . P e t i t é c h a n t i l l o n (  npetnq ≤ 5) 

6 . 3 . I n t e r v a l l e s d e c o n a n c e d ' u n e d i é r e n c e e n t r e d e u x m o y e n n e s  

6 . 3 . 1 . G r a n d s é c h a n t i l l o n s (  n Aetn B ≥ 30) 

6 . 3 . 2 . P e t i t s é c h a n t i l l o n s (  n Aetn B ≤ 30) 

6 . 4 . I n t e r v a l l e s d e c o n a n c e d e t o u t c e q u e v o u s v o u l e z  

6 . 4 . 1 . M é t h o d e d e r é - é c h a n t i l l o n n a g e  

6 . 4 . 2 . T e c h n i q u e d u   J a c k k n i f e  

6 . 4 . 3 . T e c h n i q u e d u   B o o t s t r a p  

R e f e r e n c e s  

14