37
Un choix de statistiques non paramétriques pour les sciences humaines To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination : he may be able to say what the experiment died of. Ronald A. Fisher, Indian Statistical Congress, Sankhya, ca 1938. Ce choix est destiné à des analyses faisant intevenir un petit nombre d’observation où les traits observés relèvent principaelement du domaine des catégories ou des classements ordinaux. La principale proposition est de tenter d’utiliser chaque fois la structure des tableaux de contingence. Cette réflexion permet souvent d’éclaircir la situation 1 , même si par la suite il s’avère que d’autres structures sont mieux adaptées à la situation. Calcul des rangs Cet intermède pour rappeler quelques techniques classiques liées aux rangs. On imagine 10 sujets répartis en deux groupes G 1 et G 2 constitués respectivement de 4 et 6 sujets. On attribue à chaque élève une "note" de 1 à 10 qui constitue son rang. Par exemple: Groupe Notes = Rangs Somme des rangs G 1 1, 3, 5, 7, 8, 9 R 1 = 33 G 2 2, 4, 6, 10 R 2 = 22 La somme des rangs de chaque groupe se calcule aisément. La somme totale des rangs (R 1 + R 2 = 55) est directement liée au nombre total des sujets, n: Σ R i = n(n+1)/2 Le traitement des ex-aequo se fait conformément à l'exemple suivant. Supposons que les notes obtenues sont les suivantes: Groupe Notes G 1 1, 3, 3, 5, 6, 7 G 2 2, 3, 4, 5 Dans ce cas, les 3 sujets ayant la note 3 se répartissent les rangs 3, 4 et 5. On leur attribue à chacun un rang moyen de 4 (= (3+4+5)/3). Quant aux sujets ayant la note 5, ils se verront attribuer le rang moyen 7.5 (= (7+8)/2). Groupe Rangs Somme des rangs G 1 1, 4, 4, 7.5, 9, 10 R 1 = 35.5 G 2 2, 4, 6, 7.5 R 2 = 19.5 1 Elle permet notamment de vérifier si les valeurs considérées des caractères épuisent les cas possibles. Document de travail établi à l’intention des étudiants du cours IPERAD08, semestre d’été 2008. Version 0.4, ne pas diffuser.

Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Un choix de statistiques non paramétriques pour les scienceshumaines

To call in the statistician after the experiment isdone may be no more than asking him toperform a postmortem examination : he may beable to say what the experiment died of.

Ronald A. Fisher, Indian Statistical Congress,Sankhya, ca 1938.

Ce choix est destiné à des analyses faisant intevenir un petit nombre d’observation où lestraits observés relèvent principaelement du domaine des catégories ou des classementsordinaux. La principale proposition est de tenter d’utiliser chaque fois la structure destableaux de contingence. Cette réflexion permet souvent d’éclaircir la situation1, même si parla suite il s’avère que d’autres structures sont mieux adaptées à la situation.

Calcul des rangsCet intermède pour rappeler quelques techniques classiques liées aux rangs. On imagine 10sujets répartis en deux groupes G1 et G2 constitués respectivement de 4 et 6 sujets. Onattribue à chaque élève une "note" de 1 à 10 qui constitue son rang. Par exemple:

Groupe Notes = Rangs Somme des rangs

G1 1, 3, 5, 7, 8, 9 R1 = 33

G2 2, 4, 6, 10 R2 = 22

La somme des rangs de chaque groupe se calcule aisément. La somme totale des rangs (R1 +R2 = 55) est directement liée au nombre total des sujets, n: Σ Ri = n(n+1)/2

Le traitement des ex-aequo se fait conformément à l'exemple suivant. Supposons que lesnotes obtenues sont les suivantes:

Groupe Notes

G1 1, 3, 3, 5, 6, 7

G2 2, 3, 4, 5

Dans ce cas, les 3 sujets ayant la note 3 se répartissent les rangs 3, 4 et 5. On leur attribue àchacun un rang moyen de 4 (= (3+4+5)/3). Quant aux sujets ayant la note 5, ils se verrontattribuer le rang moyen 7.5 (= (7+8)/2).

Groupe Rangs Somme des rangs

G1 1, 4, 4, 7.5, 9, 10 R1 = 35.5

G2 2, 4, 6, 7.5 R2 = 19.5

1 Elle permet notamment de vérifier si les valeurs considérées des caractères épuisent les cas possibles.

Document de travail établi àl’intention des étudiants du coursIPERAD08, semestre d’été 2008.Version 0.4, ne pas diffuser.

Page 2: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

On vérifie que Σ Ri est à nouveau égal à 55. Cette nouvelle situation est encore caractérisée

par la suite (1, 1, 3, 1, 2, 1, 1) qui donne le nombre d'ex-aequo pour chaque rang("multiplicité").

La recommandation conduit à représenter ces deux cas à l'aide de tableaux de contingence.Le premier cas devient:

Rang 1 2 3 4 5 6 7 8 9 10 totalG1G2

1 0 1 0 1 0 1 1 1 00 1 0 1 0 1 0 0 0 1

6 4

total 1 1 1 1 1 1 1 1 1 1 10Le deuxième devient:

Rang 1 2 4 6 7.5 9 10 totalG1G2

1 0 2 0 1 1 10 1 1 1 1 0 0

6 4

total 1 1 3 1 2 1 1 10

Il est recommander de noter les rangs en en-tête des colonnes lorsque le calcul à partir desrangs se fait explicitement. Ces tableaux sont des tableaux de contingence.

Tests construits à partir du coefficient SIl est utile de connaître des coefficients qui permettent de "scalairiser" une structurecomplexe. Le chi-2 est un coefficient classique qui représente la "distance" d'un pattern à unpattern "moyen". Le coefficient S est aussi classique mais moins connu. Il donne une mesurede la "diagonalité" d'un tableau. Le coefficient S se retrouve comme ingrédient dans denombreuses statistiques non paramétriques.

On adoptera le vocabulaire et le symbolisme de Mengal (1979). On parlera doncd'"individus" caractérisés par des caractères (en général 2) qui peuvent prendre pour chaqueindividu un attribut particulier. Exemples: les individus sont des écoliers. Le premiercaractère est le sexe (avec deux attributs, fille et garçon). Le deuxième caractère est le niveauopératoire (avec trois attributs: NC, I, C). On considère les matrices de recensement, dont leséléments (aij) sont en principe des nombres entiers (les répétitions) ou parfois des proportions(aij/n).

NC I C totalfilleGarçon

a11 a12 a13a21 a22 a23

t1 t2

Total u1 u2 u3 n

Page 3: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Rank-sum test

Dans ce cas, le premier caractère (variable exploratoire, variable indépendante, etc.) auradeux attributs. Par exemple, le sexe: fille et garçon. Quant au second caractère (variableréponse, variable dépendante, etc.), il possèdera des attributs ordonnés (rang attribué sur labase de notes scolaires par exemple). On fera l'hypothèse que deux individus ne peuventavoir le même rang. Il faudrait encore distiguer le fait que le sexe est un caractère fixe, alorsque le niveau opératoire est « aléatoire ». Concrètement, les deux types de caractères seronttraités de la même façon2 (il s’agit d’une hypothèse implicite d’aretefact) sauf indicationcontraire.

Exemple d'étude: les élèves de deux groupes, G1 et G2 sont "ordonnés" selon la fréquence desregards dirigés vers l'expérimentateur (on reprend un contexte lié aux recherches de AlainBrossard). Voici une matrice de recensement (fictive) qui donne le classement des élèves enfonction du groupe. Cette matrice répond aux critères donnés ci-dessus:

1 2 3 4 5 6 7 8 totalG1G2

1 1 1 1 0 1 0 00 0 0 0 1 0 1 1

5 3

total 1 1 1 1 1 1 1 1 8

On définira tout d'abord deux coefficients:

P: pour chaque élément de la première ligne on fait la somme de tous les éléments de ladeuxième ligne se situant à sa droite (sud-est). On effectue la somme de ces nombres:

P = 3 + 3 + 3 + 3 + 2 = 14

Q: pour chaque élément de la première ligne on fait la somme de tous les éléments de ladeuxième ligne se situant à sa gauche (sud-ouest). On effectue la somme de ces nombres:

Q = 0 + 0 + 0 + 0 + 1

S est la différence de ces deux nombres: S = P - Q = 14 - 1 = 13

L’encadré 1 présente une définition moins formelle des ces nombres. L'encadré 2 présente uncalcul effectué à partir de la somme des rangs. Ainsi le coefficient S, coefficient U et sommedes rangs donnent une information comparable.

2 Dans le cas des plans expérimentaux et d’analyse de variance, des précautions sont à prendre de ce point devue pour des raisons de calcul de la variance.

Encadré 1: S et U de Mann et Whitney

Dans le cas des tableaux à deux lignes, le coefficient S est fortement lié aucoefficient U de Mann-Whitney (de fait, U = min (P, Q)). On peut utiliser pourcalcul S, la méthode permettant de calculer le U.

Page 4: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

On considère la suite des 8 individus, en notant leur groupe d'appartenance:

G1 G1 G1 G1 G2 G1 G2 G2

P est la somme, étendue au groupe G1, du nombre d'individus du groupe G2 quiont un rang plus élevé qu'un individu de G1: P = 3 + 3 + 3 + 3 + 2 = 14

Q est la somme, étendue au groupe G1, du nombre d'individus du groupe G2 quiont un rang moins élevé qu'un individu de G1: Q = 0 + 0 + 0 + 0 + 1 = 1

Cette façon de calculer la valeur de S s'étend au cas avec répétitions.

Lorsque l'on a plus de deux groupe, et que ceux-ci sont ordonnés (si l'on veut queS prenne la signification de "diagonalité"), cette définition se généralise.

P1 est la somme étendue au groupe G1, du nombre d'individus des groupessuivants qui ont un rang plus élevé qu'un individu de G1. On définit de la mêmefaçon P2, etc. P est la somme de P1, P2, etc. Q se définit de la même manière et S =P - Q.

Encadré 2: S et rang

Le Rank-sum test, parfois attaché aux noms de Wilcoxon ou de Mann et Whitney(test U), s'établit de la façon suivante:

On considère deux échantillons indépendants G1 et G2 comprenant respectivementt1 et t2 individus (t1 + t2 = n , t1 > t2). On ordonne les individus de G1 U G2 selonles valeurs d'une fonction continue (cette condition de continuité est une manièred'imposer que chaque rang ne soit occupé que par un seul individu; il n'y a pasd'ex-aequo).

Les huit individus s'ordonnent de la façon suivante: G1 G1 G1 G1 G2 G1 G2 G2.

On calcule la somme des rangs obtenus pour les individus de G2 (ici 5+7+8 = 20)et l'on cherche la probabilité d'obtenir une telle valeur (ou supérieure) "au hasard".

Pour cela on considère la "variable aléatoire" R, somme des rangs de t2 individusauxquels on attribue au hasard des rangs compris entre 1 et n.

On peut vérifier que R varie de t2(1+t2)/2 à t2(1+t2)/2 + t2(n-t2)

La moyenne de cette variable vaut: µR = t2(1+n)/2

La variance de cette variable vaut: σR2 = t1t2(n+1)/12

A partir de R on peut construire une nouvelle variable aléatoire centrée:

S = 2(R - µR). C'est une nouvelle définition du coefficient S.

Page 5: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Dans notre cas on vérifie que l'on obtient bien la même valeur pour S: R = 20, µR

= 13.5, S = 2(20-13.5) = 13.

On peut encore calculer: µS = 0, vS = σS2 = t1t2(n+1)/3

Dans le cas avec répétition, on introduit des rangs moyens aux individus qui sontex-aequo.

Page 6: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Distribution du S

On peut imaginer toutes les matrices dont les totaux marginaux3 sont les mêmes que ci-dessus:

Par exemple:

1 1 1 1 1 0 0 0

0 0 0 0 0 1 1 1

5

3

1 1 1 1 0 0 1 0

0 0 0 0 1 1 0 1

5

3

1 1 1 0 0 1 0 1

0 0 0 1 1 0 1 0

5

3

1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 8

S = 15 S = 11 S = 5

Il y a en a 56 en tout. Pour chacune d'elle, on calcule la valeur de S. On obtient les valeurssuivantes:

valeur de S: -15 -13 -11 -9 -7 -5 -3 -1 1 3 5 7 9 11 13 15

distribution: 1 1 2 3 4 5 6 6 6 6 5 4 3 2 1 1

La deuxième ligne (distribution) nous indique le nombre de fois où la valeur du S a étéobtenue. Notre indice (probabilité d'obtenir une valeur de S supérieure ou égale à 13) est dansce cas de 2/56.

On observe sur ce tableau que S varie de -t1t2 (-5*3 = -15) à t1t2 (5*3 = 15). Il varie de 2 en 2.Ces propriétés sont générales. Par ailleurs, la moyenne des valeurs de S est nulle. Finalement,la variance et l'écart type sont donnés par:

vS = t1t2(n+1)/3 = 3 x 5 x 9/3 = 45

σS = √vS = √45 = 6.7

Pour chaque valeur de t1 et t2, il est possible d'établir la distribution de S. L'annexe 1 donneces distributions pour quelques valeurs de n (nombre total d'individus).

Lorsque le nombre n est grand, la distribution de S s'apparente à une distribution gaussienne.Il est important de noter que la courbe normale intervient ici pour simplifier les calculs et nonpas comme une composante du modèle. La marche à suivre pour effectuer ces calculsapprochés4, est la suivante:

1) Calculer le S corrigé (voir annexe 2, pour une explication de cette correction dite "decontinuité"): Sc = S - ε c avec c = 1, ε est le signe de S.

3 Dans le cas d’un caractère résultant d’un traitement principalement, l’hypothèse d’artefact sur les totauxmarginaux est utile pour pouvoir appliquer des formules simples. Selon le modèle adopté (qui attribuerait lesvaleurs du charactère au hasard), cette hypothèse devrait être abandonnée. Dans la pratique, les résultats obtenus(p-value) sont en général inférieur, ce qui n’invalide pas l’approximation (mais il n’est pas toujours vrai quep(S>α | totaux marginaux constants) ≥ p(S>α).

Page 7: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

2) Calculer z (réduction à la courbe normale standard): z = Sc/σS

3) Consulter une table qui donne la probabilité p d'obtenir une valeur de z supérieure à celleobtenue. Des programmes sont à disposition (sur calculette et tableurs) qui effectuent cescalculs (voir annexe 3). La plupart des ouvrages de statistique offrent des tables permettant dedéterminer la valeur de p associée. On trouvera également dans Leach des tables qui donnentdes valeurs exactes.

Voici les calculs effectués avec les données ci-dessus:

Sc = 13 - 1 = 12, z = 12/6.7 = 1.79, p = 0.037

Rank-sum test (avec répétition)

La possibilité d'avoir des individus ex-aequo est prise en compte.

Exemple: on considère les élèves de deux groupe classés selon leur niveau opératoire; 4niveaux sont considérés dans ces données (fictives):

NC I1 I1 C totalG1G2

2 1 2 10 1 0 3

6 4

total 2 2 2 4 10

Le coefficient S est calculé de la même façon:

P = 2*(1+3) + 1*3 + 2*3 = 8 + 3 + 6 = 17

Q = 2*1 + 1*1 = 3

S = P - Q = 17 - 3 = 14

La correction est donnée par : c = (2n - u1 - uk)/2(k - 1)

La variance par: vS = t1t2(n3 - Σ ui

3) / 3n(n - 1)

Où k est le nombre de colonnes du tableau, t1 le total marginal de la première ligne, t2 de ladeuxième ligne et ui celui de chaque colonne.

L'application de ces formules donne:

c = 14/6, Sc = 11.67 , vS = 81.07 , σS = 9 , z = 1.296 , p = 0.097

A noter que si les deux groupes sont "appareillés" (cas d'un pré-test avec post-test, parexemple), on obtient une structure mieux adaptée en considérant la famille des bijectionsentre les deux groupes (voir annexe 7).

A noter encore que si l’on veut obtenir la distribution « exacte » du S, il s’agit de tenircompte de la multiplicité (voir page XX). Pour le cas du tableau celle-ci vaut : 1*2*1*4 = 8.

4 Le calcul approché ne peut se faire que pour des "grandes" valeurs de n (à partir de 20 ou 30 individus).Toutefois, les résultats exacts et approchés sont très rapidement d'un ordre de grandeur comparable.

Page 8: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Le test (exact) de Fisher

Le cas précédent peut se particulariser au cas à 2 colonnes (k = 2, tableau 2x2).

S = ad - bc , c = n/2 , vS = (t1t2u1u2)/(n-1)

Ce coefficient est utilisé en lieu et place du chi-2 pour les tableaux de faible effectif (voirencadré 3).

Encadré 3: Cas d'un tableau à 4 cases: S, chi-2 et test de Fischer

total a b c d

t1 = a+b t2 = c+d

total u1 = a+c u2 = b+d n=a+b+c+d

Pour mémoire voici les formules établies à propos du tableau 2x2:

χ 2 =n(ad − bc)2

t1t2u1u2

S = ad − bc ; σ S =t1t2u1u2

n −1

z =Sσ S

= (ad − bc) n −1t1t2u1u2

(sans la correction)

On en déduit:

χ 2 = nz2 /(n −1) .Il y a équivalence entre la distribution du chi-2 et de S2. La distribution exacte du

S peut donc servir comme prolongation du chi-2 pour les faibles valeurs de n.

Le test de Jonkheere

Il est également possible de définir S, indice de la diagonalité, pour des tableaux possédantplus de deux lignes. On peut distinguer le cas sans ex-aequo et le cas avec répétition, bien quece deuxième cas englobe le premier.

Exemple dans le cas sans répétition: trois groupes d'élèves sont constitués en fonction de lasection scolaire (hiérarchie: Inf<Moy<Sup). Les élèves de ces trois groupes sont ordonnésselon leur résultat à un examen:

1 2 3 4 5 6 7 8 9 10 11 totalInfMoySup

1 0 1 0 0 0 1 0 1 0 00 0 0 1 1 0 0 0 0 0 10 1 0 0 0 1 0 1 0 1 0

4 3 4

total 1 1 1 1 1 1 1 1 1 1 1 11

Page 9: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

S se calcule de la même façon, en ajoutant la contribution du décalage de Moy et Sup parrapport à Inf, à celle de Sup par rapport à Moy.

P = (7 + 6 + 3 + 2) + ( 3 + 3) = 24

Q = (1 + 4 + 5) + (1 + 1 + 4) = 16

S = P - Q = 8

c = 1, vS = (2(n3 - S ti3) + 3(n2 - S ti

2))/18

Sc = 7 , vS = 149 , σS = 12.21 , z = 0.57 , p = 0.28

Exemple d'un cas avec répétition: le niveau opératoire est examiné pour trois groupesd'élèves classés selon leur origine sociale (hiérarchie I<M<S):

NC I1 I1 C totalIMS

3 0 1 11 1 2 00 1 0 3

5 4 4

total 4 2 3 4 13

P = (3*7 + 1*3) + (1*4 + 1*3 + 2*3) = 24 + 13 = 37

Q = (1*3 + 1*5) + (2*1) = 10

S = 27

Le coefficient de correction est difficile à établir. On prendra en général 1 pour les tableauxdont le nombre de lignes (w) est au plus 3. On prendra 1/2 au-delà.

La formule pour la variance vS, qui englobe tous les cas particuliers précédents, est pluscomplexe:

vS = (2(n3 - Σ ti3 - Σ ui

3) + 3(n2 - Σ ti2 - Σ ui

2) + 5n) / 18 +

(Σ ti3 - 3Σ ti

2 + 2n)(Σ ui3 - 3Σ ui

2 + 2n) / 9n(n-1)(n-2) +

(Σ ti2 - n)( Σ ui

2 - n) / 2n(n-1)

Les calculs donnent: Sc = 26 , vS = 217.76 , σS = 14.75, z = 1.76, p = 0.039

Cette structure peut aussi être utilisée avec profit pour étudier la « corrélation » (l’indiced’association) entre deux caractères. On peut également l'utiliser pour étudier l'équivalencede deux échantillons appareillés.

Le test de Kendall

Il s'agit du cas particulier où tous les totaux marginaux (lignes et colonnes) valent 1. Ce testest un test mesurant le degré de corrélation.

Page 10: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Exemple: il s'agit d'étudier la relation entre la note scolaire d'élève et un indice "d'harmonie"de relation familiale (cet exemple est suggéré par une étude de Peter Wenger,1987).

1 2 3 4 5 6 totalG1G2G3G4G5G6

0 1 0 0 0 01 0 0 0 0 00 0 0 1 0 00 0 0 0 1 00 0 1 0 0 00 0 0 0 0 0

1 1 1 1 1 1

total 1 1 1 1 1 1 6

P = 4 + 4 + 2 + 1 + 1 = 12

Q = 1 + 0 + 1 + 1 + 0 = 3

S = 12 - 3 = 9

L'encadré 4 présente une autre méthode pour effectuer ce calcul.

Les formules précédentes se simplifient en: c = 1, vS = n(n - 1)(2n + 5)/18

Dans ce cas: Sc = 8 , vS = 28.33 , σS = 5.3, z = 1.5 , p = 0.067

Encadré 4: Test de Kendall, méthode de calcul

On peut organiser les données de la façon suivante: Les six individus (in) sont rangésselon l'ordre donné par le premier caractère.

Les rangs associés au deuxième caractère sont annotés dans une colonnesupplémentaire.

Une troisième colonne de nombres contiendra, pour chaque individu, le nombred'individus suivants de rang plus élevé. Finalement, on note encore le nombred'individus suivants de rang moins élevé. Les sommes de ces deux colonnes sontrespectivement P et Q.

P Q i1 1 2 4 1 i2 2 1 4 0 i3 3 4 2 0 i4 4 5 1 0 i5 5 3 1 2 i6 6 6 0 12 3 S = 12 - 3 = 9

Page 11: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Lorsqu'il y a un petit nombre d'ex-aequo (10 à 20%), cette méthode peut aussi êtreutilisée. On départage les individus ex-aequo à l'aide d'un tirage "au hasard".

Cas des groupes appareillés (à revoir)Le problème a déjà été évoqué précédemment. Ce cas sera traité sur la base d’un exemple quiservira également à rappeler les principales étapes d’un test d’hypothèse dans le cas de petitseffectifs et du passage d’un usage des outils statistiques de la validité externe à la validitéinterne. On suppose que l’on fasse passer un test de « calcul réfléchi » avant et après uneséquence d’exercisation sur ordinateur a une classe de 22 élèves (13 filles et 9 garçons). Lesdeux groupes, la classe dans le pré-test et la classe dans le post-test, sont appareillés par lessujets de l’expérience. Le test offre les résultats selon une échelle à trois niveaux A, B et C.La table suivante, hormis la différention selon le sexe, donne la totalité de l’informationobtenue.

A ap B ap C ap totalA avB avC av

1 4 20 3 80 1 3

7 11 4

total 1 8 13 22La question se pose de savoir quelle stratégie a adopter pour estimer la validité du progrèsobservé. L’hypothèse nulle sera évidemment que l’exercisation n’a pas permis aux élèves deprogresser (ici la question, évidemment naïve, est d’analyser une progression et non decomparer l’usage de l’ordinateur à d’autres méthodes).

On peut tout d’abord noté que 14 élèves sur 22 ont progressé dont 2 de deux niveaux. Uneapproche serait de comparer ce résultat à une prédiction théorique basée sur une probabilité(obtenue par l’expérience). Cela revient à introduire un groupe témoin. (à voir Wainer &Robinson, 2003)

Une autre approche est d’admettre cette progression et de se poser la question sur la capacitéde la structure adoptée de montrer une telle différence. Avec la contrainte (hypothèsed’artefact) de l’invariance des totaux marginaux, il serait possible de dénombrer tous lespatterns défavorables à l’hypothèse nulle, si possible plus défavorables que celui résultant denotre observation. Par exemple un autre tableau montrant 15 progressions dont il s’agiraitégalement de tenir compte de la multiplicité (1890).

A ap B ap C ap totalA avB avC av

1 6 00 2 90 0 4

7 11 4

total 1 8 13 22

Page 12: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Un coefficient utilisable est ici le S5 qui cumule les décalages d’un groupe à l’autre. Il a unevaleur de 52 et la p-value correspondante est 0.033. Mais son usage peut s’avérer délicat.

Une autre structure peut-être choisie qui donne plus simplement l’effectif global pour chacundes scores avant et après la séquence d’exercisation. Dans ce cas on perd une partie del’information. Le niveau global après est plus élevé qu’avant. L’usage du S6 (avec sadistribution standard) permet de le montrer. Mais l’effet pourrait être obtenu par un brassagetotal des scores. Dans ce cas on peut se trouver face à un « effet de structure ».

A B C totalAvantAprès

7 11 41 8 13

22 22

total 8 19 17 44

Une méthode possible basée sur cette structure est de la considérer séparément pour chaqueélève et de passer par le calcul du coefficient J (voir page XX). L’information délivrée par lapremière structure est alors nécessaire. Ainsi, par exemple, 4 élèves sont caractérisés par lepattern (S = 1 ; v = 1).

A B C totalAvantAprès

1 0 00 1 0

1 1

total 1 1 0 2

En sommant l’ensemble des résultats obtenus pour chaque pattern, on obteient : J = 13, v =15, z = 3.35, p = 0.0004 .

Dans ce cas l’outillage est compliqué, le nombre d’hypothèses d’artefact extravagant parrapport à la simplicité de la situation. De fait cela revient à proposer une probabilité de 1/2(correspondant à une sensiblité de la structure) à montrer une progression. La probabilitéd’observer 14 progressions ou plus est alors de : 0.1 (approx normale, mu = np = 11, v = npq= 5.5).

Une troisième structure peut être proposée qui perd également une partie de l’informationcelle du degré de progression et fait l’hypothèse que toutes les progressions sont identiques(A à B est équivalent à B à C).

Progression -1 0 1 2 totalEffectif 1 7 12 2 22

5 A ne pas confondre avec le test de Kendall qui présuppose des totaux marginaux égaux à l’unité et dont le butest de tester une corrélation.6 S = 243, p = 0.002

Page 13: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Cette technique qui permet de diminuer le nombre de caractères permet d’en introduire unautre, par exemple la comparaison entre la progression des filles et des garçons. Imaginons defaçon fictive le résultat suivant :

Progression -1 0 1 2 totalFilles 0 3 9 1 13Garçons 1 4 3 1 9total 1 7 12 2 22

Dans ce cas : S = -35 ; p = 0.15. Cela ne permet pas de conclure à une meilleure progressiondes filles, malgré la tendance montrée.

Méthode des coefficients "lambda" (Meddis)Cette méthode reprend certaines manipulations de l'analyse de la variance. Elle semble avoirété imaginée par Page en 1963 et perfectionnée par Meddis. Elle nécessite le calcul explicitedes rangs. Reprenons l'exemple traité avec le test de Jonkheere (page 10) en ajoutant lasomme des rangs et le rang moyen de chaque groupe et un coefficient λ i que l'on précisera:

1 2 3 4 5 6 7 8 9 10 11

ti Ri λi Ri

InfMoySup

1 0 1 0 0 0 1 0 1 0 00 0 0 1 1 0 0 0 0 0 10 1 0 0 0 1 0 1 0 1 0

4 20 1 5 3 20 2 6.3 4 26 3 6.5

total 1 1 1 1 1 1 1 1 1 1 1 11 66

Dans ce cas on compare la somme des rangs de chaque groupe à un coefficient (λi) attribuéen fonction de l'hypothèse faite sur la hiérarchie des rangs moyens des groupes. Al'hypothèse:

R1 < R2 < R3 on pourra faire correspondre la suite de coefficients: 1, 2, 3 : Onaurait aussi pu choisir: -1, 0, 1. D'autres choix sont également possibles.

L'accord entre les rangs observés et les coefficients théoriques est donné par le produitscalaire:

L = Σλi Ri .

Cet accord sera d'autant meilleur que L est grand.

Les paramètres de la distribution L sont les suivants:

µL = (1/2)(n+1) Σ ti λi

vL = (1/12)(n+1) (n Σ ti λi2 - ( S ti λi)

2)

Il est possible de calculer la distribution exacte de ce coefficient (tables données par Meddis).Mais très rapidement on peut se contenter des résultats donnés par le passage par unedistribution normale centrée réduite : z = (L - µL) / σL

Dans l'exemple précédent on trouve :

Page 14: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

L = 138, µL = 6*22 = 132, vL = 88, σL = 9.38, z = 0.64, p = 0.26

Par rapport au test de Jonkheere présenté précédemment, ce test présente l'avantage depouvoir se prolonger au calcul de l'interaction dans des plans factoriels (voir plus loin).Meddis estime que ce test ne fait pas intervenir d'hypothèse sur les totaux marginaux. Cetteaffirmation ne semble toutefois pas être justifiée. On trouvera dans l'encadré 5 quelquescomparaisons qui montrent l'équivalence dans des cas simples. Il faut encore releverl'avantage de pouvoir choisir des poids différenciés entre les groupes. Ce qui introduit unesorte d'échelle d'intervalle. Par contre, ce test n'a plus d'interprétation combinatoire simple. Ilsemble avoir également une moins bonne sensibilité à la "diagonalité" d'un tableau. Lecoefficient S est global, le coefficient L se réfère explicitement au rang de chaque groupe.

Encadré 5: Comparaison entre la valeur de S et de L dans le cas de deux groupes

Propriété : Si t1 = t2 = t (donc n = 2t) et si λ2 = - λ1 = 1 alors S = tL

En effet:

S = 2(R2 - t(n+1)/2)

tL = -R1 + R2 = -(n(n+1)/2 - R2) + R2 = 2R2 - n(n+1)/2 = S

Par ailleurs si l'on suppose l'attribution des rangs sans ex-aequo, les distributions de S etde L sont semblables.

Lorsque des ex-aequo apparaissent avec des multiplicités u1, u2, ... on introduit un facteurcorrectif:

T = 1 - (Σ ui3 - ui) / (n

3 - n)

σ'L = σL √T.

Hypothèse spécifique ou nonTous les coefficients étudiés rendent compte d'un lien entre deux caractères. Une hypothèseexpérimentable est dite "spécifique" si elle précise le sens de ce lien; non spécifique sinon.

Une hypothèse statistique spécifique faisant intervenir le coefficient S précisera que la valeurest plus extrême qu'une valeur donnée (hypothèse auxiliaire implicite): S > S0. Dans le cas duL, l'hypothèse statistique est du type:

R1 < R2 .

Une hypothèse non spécifique ne fait état que d'une différence. Dans le cas de l'examen desrangs de deux groupes, elle s'exprime par:

R1 ≠ R2 ce qui est équivalent à

R1 < R2 ou

R1 > R2 .Le cas non spécifique est la disjonction des deux cas spécifiques évoqués ci-dessus

Vu l'aspect symétrique des distributions, le calcul du niveau de signification s'effectuesimplement en doublant celui du cas spécifique. On notera que cette pratique, largementrépandue, n'est plus valable dans les cas où le nombre de groupes est supérieur à deux (ilfaudrait dans ces cas envisager la combinatoire des groupes pris deux à deux). L'analysed'une hypothèse non spécifique à l'aide d'un coefficient S n'a pas véritablement de sens.

Page 15: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Le cas des hypothèses non spécifiques, l'analyse de variance nonparamétriqueSoient trois groupes d'élèves à comparer du point de vue de leur niveau opératoire. Onconstitue le tableau suivant (les données sont rapportées par Michèle Grossen, 1988, p. 126):

Rang moy.NC I C43 121 182

ti Ri Ri

G1G2G3

4 10 1324 21 2257 40 16

27 3748 138.8 67 7577 113.1113 10203 90.3

total 85 71 51 207 21528 104

Ri somme des rangs se calcule de la manière suivante: les 85 individus NC se "partagent" les85 premiers rangs dont la somme est 85 * 86 /2. Soit un rang moyen de 43. Les 71 individusde niveau opératoire I ont pour rang moyen 85 + 72/2 = 121. Les individus C ont pour rangmoyen: 156 + 26 = 182. Cela permet par addition de trouver la somme des rangs de chaquegroupe.

Le coefficient K de Kruskal-Wallis donne une mesure de la différence globale des rangsmoyens de chaque groupe au rang moyen de l'ensemble des groupes.

K = Σti(Ri − R)2 = −3(n +1) +

12n(n +1)

ΣRi2 / ti

Pour tenir compte des multiplicités, on utilise un facteur corrigé :

K' = K/T où T = 1- (Σ ui3-ui)/(n

3 - n)

La distribution de K (ou K') est comparable à celle du χ2 avec df = w - 1 où w est le nombrede groupes (lignes).

Dans notre cas: K = 16.58 ; T = 0.87 ; K' = 18.95 ; df = 2 ; p < 0.001 (une manière de calculerles valeurs du χ2 se trouve dans l'annexe 3).

Mesure des effetsDifférents coefficients ont été imaginés qui traduisent en nombre le lien entre deuxcaractères. Ces mesures servent à comparer qualitativement différents résultatsexpérimentaux. Plusieurs coefficients sont basés sur le "chi-2". Ils sont présentés dansMengal (1979). On fera ici la liste des coefficients basés sur le coefficient S. On trouveradans l'annexe 4 la façon dont ces coefficients apparaissent sur des "listing" d'ordinateur.

Coefficient "Delta" de Somer

Reprenons un tableau introduit précédemment:

1 2 3 4 5 6 7 8 totalG1 1 1 1 1 0 1 0 0 5

Page 16: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

G2 0 0 0 0 1 0 1 1 3total 1 1 1 1 1 1 1 1 8

On va imaginer que l'on tire au hasard un couple d'individu (g1, g2) dont le premier est de G1

et le deuxième de G2. Quelle est la probabilité que g2 ait un rang plus élevé que g1 ?

Le nombre de couples possibles est 3*5 = 15. Ceux qui satisfont la condition exprimée ci-dessus sont au nombre de 14 (il s'agit de P).

La probabilité est donc élevée: 14/15. Pour obtenir δ, on soustrait à ce nombre la probabilitéd'obtenir g2 de rang moins élevé que g1. Ici, cela vaut 1/15. δ = 14/15 - 1/15 = 13/15.

De façon générale: δ = P/t1t2 - Q/t1t2 = (P - Q)/t1t2 = S/t1t2

Cette définition est adoptée pour toutes les matrices de recensement à deux lignes (w = 2).

Dans le cas des tableaux à 4 cases, il devient: δ = a/t1 - c/t2 (différence de proportions).

Le même raisonnement permet d'établir une formule pour les tableaux à plus de deux lignes.Dans ce cas le nombre de cas possibles est donné par : Σtitj= (n2 - Σti

2)/2 . Donc:

δ = 2S/(n2 - Σti2)

On peut voir lorsque les totaux marginaux (lignes ou colonnes) sont tous égaux à 1 (Rank-sum test sans répétition, Jonkheere sans répétition, Kendall) que (n2 - Σ ti

2)/2 = P+Q. Donc

dans ces cas on a aussi:

δ = S/(P+Q)

Coefficient "Gamma" de Goodman et Kruskal

Dans le cas avec répétition, le coefficient d ne prend pas en compte l'existence d'individusex-aequo. C'est ce que fait le coefficient t (gamma) pour lequel on diminue le nombre decouples possibles en ne prenant que les couples constitués d'individus de rangs différents. Cecoefficient est défini par :

γ = S/(P+Q)

Dans tous les cas sans répétition, les deux coefficients δ et γ sont les mêmes. Dans les autrescas γ est inférieur à δ .

Exemple: On reprend le tableau:

NC I1 I1 C TotalG1G2

2 1 2 10 1 0 3

6 4

total 2 2 2 4 10

P = 17, Q = 3, S = 14, n2 - Σti2 = 48, δ = 0.58, γ = 0.7

Page 17: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Les coefficients "Tau"

Le coefficient tau-b de Kendall est donné par :

τ b =2S

n2 − Σti2 n2 − Σui

2

Dans la situation spécifique du test de Kendall (sommes marginales égales à 1), cette formulese simplifie en: τb = 2S/n(n-1)

Ce coefficient de corrélation est classique. Il correspond au nombre de permutations à fairesubir aux individus pour passer des rangs donnés par le premier caractère à ceux déterminéspar le second.

σ =2σ S

n(n −1)=

2(2n + 5)9n(n −1)

est alors utilisé pour faire des tests sur ce coefficient de corrélation

(Siegel, 1956).

Le coefficient tau-c est :

τ c =2S

n2 m −1m

avec m = min (k, w)

Problème des plans factorielsL'exemple traité est tiré de Grossen (1988:112). Le niveau opératoire de garçons et de fillessont établis dans deux situations différentes F et D (dans la situation F les enfants semblent« favorisés » dans une situation de partage, dans l'autre ils paraissent au contraire« défavorisés »).

Les hypothèses (simplifiées) qui sont à la base de la recherche sont:

1) les enfants en situation F actualisent un niveau opératoire plus élevé que les enfants encondition D: (F > D);

2) l'expérience relèvera un niveau opératoire en général plus élevé chez les garçons que chezles filles: (Garçon > Fille);

3) l'effet des conditions expérimentales (situation F ou D) est plus fort parmi les filles queparmi les garçons: (F - D | Fille > F - D | Garçon ).

Une expérience conduit aux résultats suivants:

NC I C totalGarçons F

D 2 4 6 3 7 10

12 20

filles FD

3 6 6 6 4 3

15 13

Total 14 21 25 60

Page 18: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Une statistique basée sur le S permet d'examiner les deux premières hypothèses7. En ce quiconcerne la troisième hypothèse on peut calculer l'effet de la condition expérimentale sur leniveau opératoire pour les filles et pour les garçons. En utilisant le coefficient "gamma" ontrouve: γgarçon = 0.014 et γ fille = -0.42. La tendance est bien celle exprimée par l'hypothèse.Mais dans quelle mesure la structure choisie est-elle apte à falsifier notre hypothèse ? Pourrépondre à cette question, il faudrait disposé d'une distribution de la valeur de γ quipermettrait d'apprécier la différence enregistrée.

Passage par le S

La différence est: Δγ = 0.436. Il s'agit de savoir combien de valeurs plus "extrêmes" il estpossible d'obtenir dans la même structure. Si l'on fait l'hypothèse restrictive sur les totauxmarginaux (16 contraintes, voir annexe 5), on trouve 45 pattern différents8. 23 valeurs sontplus extrêmes. Donc, grossièrement, sans tenir compte des multiplicités qui deviennent tropimportantes p = 23/45.

La technique présentée dans l'annexe 6 point 13) permet d’affiner. On trouve:

S- = S'total - SSexe = 59.

v- = 3896.35; σ- = 62.42 ; z = S-/σ- = 0.94 et p = 0.17

Procédure de Meddis

niv. op. rang moy.

NC I C7.5 25 48

ti Ri Ri

Garçons FD

2 4 6 3 7 10

12 403 33.6 20 677.5 33.9

Filles FD

3 6 6 6 4 3

15 460.5 30.7 13 289 22.2

Total 14 21 25 60 1830

Coefficient de correction: T = 0.872

Les hypothèses expérimentables peuvent s'exprimer par:

1)

R1 + R32

>R2 + R42

où, ce qui revient au même :

R1 + R3 > R2 + R4

2)

R1 + R2 > R3 + R4

7 Dans le premier cas: Scond. exp = -80 , Sc = -60 , σS = 125.7, z = -0.48, p = 0.32 Dans le cas de la deuxièmehypothèse Ssexe = -209, Sc = -189, σS = 126.1, z = –1.497, p = 0.067 8 Ces résultats sont calculés dans l'environnement ANAPROT. Si l'on fait une hypothèse moins restrictive surles totaux marginaux (7 contraintes, totaux des groupes et somme globale de chaque niveau opératoire) ontrouve 610002 pattern possibles (sans les multiplicities). Si l'on calcule les Δγ correspondants, 216529 ont unevaleur plus extrême que 0.436. Donc p = 0.35.

Page 19: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

3)

R4 − R3 > R2 − R1

Recherche des coefficients

1) L'hypothèse s'exprime aussi par l'expression:

R1 − R2 + R3 − R4 > 0 . Il faut donc choisir lasuite de coefficients lambda (1, -1, 1, -1). Dans ce cas le produit scalaire S i Ri qui donne lastatistique L représente bien cette expression.

2) La deuxième hypothèse s'exprime par:

R1 + R2 − R3 − R4 > 0 ce qui conduit à prendre lasuite de coefficients (1, 1, -1, -1)

3) La dernière hypothèse donne l'expression:

R1 − R2 − R3 + R4 > 0 et la suite des coefficientslambda est (1, -1, -1, 1)

Calcul des valeurs de L et de la probabilité correspondante

Hypothèse L µL ΔL σL z p

1) -103 -183 80 125.7 0.636 .26

2) 331 122 209 126 1.66 .048

3) -466 -305 161 124.6 1.29 .10

Rappel du calcul (cas 1) : L = 403 - 677.5 + 460.5 - 289 = -103

µL = (1/2)61 (12-20+15-13) = -183 σL = (1/2)61 (602 -36) √T = 125.7

ΔL = L - µL = 80 z = ΔL/σL = 0.636

On remarque que les valeurs de ΔL et de S pour les effets simples sont les mêmes. Ladifférence réside dans la façon dont le protocole traite le problème des facteurs correctifs. Letest de Meddis est plus « puissant » pour les effets croisés par rapport à l’approximation faiteà l’aide du S,

Hypothèses non spécifiquesDans les données ci-dessous (Grossen, 1988, p 126), S, M, I représentent l'origine sociale desindividus.

niv. op. rang moy.

NC I C43 121 182

ti Ri Ri

S FD

1 4 8 3 6 5

13 1983 152.5 14 1765 126.1

M FD

13 9 1211 12 10

34 3832 112.7 33 3745 113.5

I FD

35 15 622 25 10

56 4412 78.8 57 5791 101.6

total 85 71 51 207 21528

Page 20: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Trois hypothèses sont formulées:

1) influence de l'origine social sur le niveau opératoire,

2) influence de la condition expérimentale sur le niveau opératoire,

3) l'influence de la condition expérimentale est différente selon l'origine sociale desindividus.

T = 0.87

Ktotal = (1/T) (-3(n+1) + (12/n(n+1) ) Σ Ri2/ti ) = 25.3, df = 5, p < 0.001

Korigine sociale = 18.95, df = 2, p < 0.001

Kcondition expérimentale = 1.45 , df = 1 , p < 0.30

Kinteraction = Ktotal - Korigine sociale - Kcondition expérimentale = 4.8 , df = 2, p < 0.01

Ces influences globales peuvent être précisées par l'étude des groupes pris deux par deux.

L.-O. Pochon, avril 2008

BibliographieBrossard, A. (1988). Communication personnelle sur une recherche en cours.

Grossen, M. (1988). L'intersubjectivité en situation de test. Cousset : Editions Delval.

Leach, C. (1979). Introduction to statistics. A nonparametric Approach for the socialSciences. New York : John Wiley.

Meddis, R. (1984). Statistics using ranks, a unified approach. New York : Basic BlackwellPublisher Ltd.

Mengal, P. (1979). Statistique descriptive appliquée aux sciences humaines. Berne : P.Lang.Collection Exploration.

Pallier, C. & Lalanne, C. (2005). Introduction à l’analyse des statistiques des données :travaux pratiques avec le logiciel « R ». (consulté sur Internet, janvier 2007).

Siegel, S. (1956). Non parametric statistics for behavioral sciences. New York : Mc GrawHill, International student edition.

Wenger, P. (1987). Communication personnelle.

A compléter

Page 21: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 1: Distributions "exactes" de STous les cas sont sans « ex-aequo ». On peut toujours se ramener au cas où t1 est supérieur ouégal à t2 en utilisant la propriété "antisymétrique" de S (voir annexe 6). La valeur de σS estobtenue par la formule : t1 * t2 * (n+1) / 3 .

n = 4

t1 = 2, t2 = 2, nombre de tableaux = 6, σS = 2.58

S: -4 -2 0 2 4 1 1 2 1 1

t1 = 3, t2 = 1, nombre de tableaux = 4, σS = 2.24

S: -3 -1 1 3 1 1 1 1

n = 5

t1 = 3, t2 = 2, nombre de tableaux = 10, σS = 3.46

S: -6 -4 -2 0 2 4 6 1 1 2 2 2 1 1

t1 = 4, t2 = 1, nombre de tableaux = 5, σS = 2.83

S: -4 -2 0 2 4 1 1 1 1 1

n = 6

t1 = 3, t2 = 3, nombre de tableaux = 20, σS = 4.58

S: -9 -7 -5 -3 -1 1 3 5 7 9 1 1 2 3 3 3 3 2 1 1

t1 = 4, t2 = 2, nombre de tableaux = 15, σS = 4.32

S: -8 -6 -4 -2 0 2 4 6 8 1 1 2 2 3 2 2 1 1

n = 7

t1 = 4, t2 = 3, nombre de tableaux = 35, σS = 5.66

S: -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 1 1 2 3 4 4 5 4 4 3 2 1 1

t1 = 5, t2 = 2, nombre de tableaux = 21, σS = 5.16

S: -10 -8 -6 -4 -2 0 2 4 6 8 10 1 1 2 2 3 3 3 2 2 1 1

n = 8

t1 = 4, t2 = 4, nombre de tableaux = 70, σS = 6.93

S: -16 -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 1 1 2 3 5 5 7 7 8 7 7 5 5 3 2 1 1

t1 = 5, t2 = 3, nombre de tableaux = 56, σS = 6.71

S: -15 -13 -11 -9 -7 -5 -3 -1 1 3 5 7 9 11 13 15 1 1 2 3 4 5 6 6 6 6 5 4 3 2 1 1

Page 22: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

t1 = 6, t2 = 2, nombre de tableaux = 28, σS = 6

S: -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 1 1 2 2 3 3 4 3 3 2 2 1 1

n = 9

t1 = 5, t2 = 4, nombre de tableaux = 126, σS = 8.16

S: 0 2 4 6 8 10 12 14 16 18 20 12 11 11 9 8 6 5 3 2 1 1(utiliser la symétrie pour obtenir les valeurs négatives)

t1 = 6, t2 = 3, nombre de tableaux = 84, σS = 7.75

S: 0 2 4 6 8 10 12 14 16 18 8 8 7 7 5 4 3 2 1 1

t1 = 7, t2 = 2, nombre de tableaux = 36, σS = 6.83

S: 0 2 4 6 8 10 12 14 4 4 3 3 2 2 1 1

n = 10

t1 = 5, t2 = 5, nombre de tableaux = 252, σS = 9.57

S: 1 3 5 7 9 11 13 15 17 19 21 23 25 20 19 18 16 14 11 9 7 5 3 2 1 1

t1 = 6, t2 = 4, nombre de tableaux = 210, sS = 9.38

S: 0 2 4 6 8 10 12 14 16 18 20 22 24 18 16 16 14 13 10 9 6 5 3 2 1 1

t1 = 7, t2 = 3, nombre de tableaux = 120, sS = 8.77

S: 1 3 5 7 9 11 13 15 17 19 21 10 10 9 8 7 5 4 3 2 1 1

t1 = 8, t2 = 2, nombre de tableaux = 45, sS = 7.66

S: 0 2 4 6 8 10 12 14 16 5 4 4 3 3 2 2 1 1

Comparaison de la distribution exacte et de la distribution approximée:

Cas n = 10, t1 = 8, t2 = 2, nombre de tableaux = 45, σS = 7.66S: 0 2 4 6 8 10 12 14 16

dist. exacte: 0.056 0.044 0.044 0.033 0.033 0.022 0.022 0.011 0.011

dist. approx: 0.052 0.051 0.046 0.038 0.030 0.022 0.016 0.010 0.007

La distribution exacte est donnée par les fréquences relatives divisées par l'intervalle entredeux valeurs succesives de S. Par exemple, la valeur 0 devient le rectangle de compris entre–1 et +1 dont l’aire doit être égale à 5/45. Sa hauteur vaut donc 5/90.

La distribution approchée est donnée par la formule: exp(-x2/2σ2)/ σ √(2π) .

Page 23: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 2: La correction de continuitéLors du « Rank-sum test » sans répéition, la valeur de S varie de 2.2. La figure A2.1représente un de ces cas.

Fig A2.1. Distribution exacte et théorique du S dans le cas sans sans répétition, t1 = 5, t2 = 3La probabilité p(S≥7) est donnée dans la figure A2.2. qui montre qu’une meilleure valeurapprochée est obtenue en calculant la valeur théorique correspondant à une valeur de Scorrigée : Sc = S-c où c vaut la moitié de l’intervalle entre deux valeurs consécutives de S.

Fig A2.2. p(S≥7) valeur exacte à gauche, valeur approchée par la courbe normale à droite

Dans le cas du test de Fischer, il n'est pas difficile de voir que S varie de n en n. c vaut doncn/2.

Dans les autres cas la variation de S est plus irrégulière. Par exemple dans le cas où les totauxmarginaux sont 3 et 2 (lignes), 3, 1, 1 (colonnes), S peut valoir -4, 0, 2 ou 6.Dans ce cas onprend pour c la valeur moyenne. c = (2n - u1 - uk)/2(k-1)

Lorsque le nombre de ligne est plus grand, l'intervalle diminue. On prend c = 1 pour w < 4 etc = 0.5 sinon. Il serait parfois souhaitable de calculer cette correction de cas en cas.

Page 24: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients
Page 25: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 3: Distribution de la normale centrée réduite (z) et du χ2Les valeurs de ces distributions étaient données par des tables. Actuellement, ces fonctionssont programmées dans les calculatrices de poche scientifique et les tableurs.

La figure A3.1 montre ce calcul sous Excel. La page suivante donne la tabulation de Φ(z) quireprésente la probabilité pour une variable suivant une loi normale d’être inférieure à z(figure A3.2).

Fig A3.1a : Φ(0.5) calculé à l’aide d’un tableur

Fig A3.1b. χ2 pour la valeur de 7.289, ddl = 5 calculé à l’aide d’un tableur

Fig A3.2. Φ(z) est l’aire comprise sous la courbe en « cloche » de -∞ à z

Page 26: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients
Page 27: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 4: Usage de logiciels de statistique (à faire)Les coefficients étudiés dans Mengal (1979) et dans ce document sont les suivants:

le chi-2 ( χ2) accompagné de la probabilité. Ce coefficient classique mesure la "distance" dela matrice de recensement à la matrice dont les coefficients sont tous proportionnels auxtotaux marginaux: aij = tiuj/n

Le coefficient de Cramer:

V =χ 2

n ×min(k −1,w −1)

Le coefficient de contingence:

C =χ 2

n + χ 2

Le coefficient tau-b de Kendall:

τ b =2S

n2 − ti2∑ n2 − ui

2∑

Le coefficient tau-c:

τ c =2S

n2 m −1m

avec m = min (k, w)

Le coefficient gamma de Kruskal et Goodman:

G =S

P +Q

Le coefficient delta de Somer (ligne):

δ(ligne) =2S

n2 − ti2∑

Delta de Somer (colonne; il n'est pas symétrique):

δ(colonne) =2S

n2 − ui2∑

Coefficient delta symétrique:

δ =δ(ligne) + δ(colonne)

2

Le coefficient S de Kendall

La corrélation classique (Bravais-Pearson).

Exemple :

5 4

6 2

Dans le cas de tableaux à quatre cases avec de petits effectifs, le chi-2 est remplacé par le testexact de Fischer dont seule la probabilité est donnée et cela pour des valeurs de S plusextrêmes que -14. Dans le cas ci-dessous, un calcul approché aurait donné:

Sc = -14 + 8.5 = -5.5 , z = -0.319 et p = 0.3745

Page 28: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients
Page 29: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 5: Etude d'une interaction à l'aide du coefficient SOn part d'une situation simplifiée:

niv. op. NC I C totalGarçons F

D 1 1 1 1 1 0

3 2

Filles FD

1 1 0 0 1 1

2 2

Total 3 4 2 9

On peut calculer: Sgarçon = -2 et Sfille = 3. La différence de 5 obtenue est-elle "significative" ?

Les contraintes d'invariance des sommes marginales:

1) Sommes des lignes invariantes: ces 4 contraintes sont naturelles, les groupes sontconstitués.

2) Sommes des colonnes invariantes (contrainte faible): on suppose l'invariance du nombred'individus pour chaque niveau opératoire (3 contraintes).

2') Somme des colonnes invariantes pour chaque sous-groupe (contrainte forte): il y ainvariance du nombre d'individus de chaque sexe et dans chaque condition expérimentalepour chacun des trois niveaux opératoires (12 contraintes).

Il y a 5 patterns qui satisfont aux 16 contraintes 1) et 2') :

1 2 0 1 1 1 2 0 1 2 1 0

1 0 1 1 1 0 0 2 0 0 1 1

gamma 1/5 -1/2 1/3 1

1 0 1 1 1 0 0 2 0 0 1 1

0 2 0 0 1 1 1 0 1 1 1 0

gamma 0 1 0 -1

delta-gamma: -1/5 3/2 -1/3 -2

La probabilité d'observer un effet aussi important à celui des hypothèses est de p = 0.25.

Si on remplace la contrainte 2') par 2), on trouve 109 patterns possibles avec des valeurs dedelta-gamma égales ou supérieures à 3/2 dans 13 cas; p = 13/109 = 0.12.

A noter que les faibles valeurs nous ont permis de ne pas introduire les multiplicités.

Page 30: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients
Page 31: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 6: Quelques propriétés du coefficient S.Le calcul du coefficient S et la vérification de certaines de ses propriétés peuvent être facilitéssur la base d'une définition intrinsèque.

On considère V = Rn espace vectoriel des suites de n nombres réels. Les éléments de cetespace seront donnés par leurs composantes: v = (vi)i=1,n

Exemple: n = 4, v = (3, 4, 5, 6) ; u = (1, 2 ,3, 4)

On définit un produit entre deux éléments quelconque de cet espace:

Si v et w sont des éléments de V, v*w sera le nombre donné par:

v *w = vi w jj> i∑ − w jj< i∑( )∑

Ce produit jouit des propriétés suivantes:

1) v*w = -w*v

2) (a v)*w = a (v*w) = v*(a w) où a est un nombre réel

3) (v+v')*w = v*w + v*w'

Cela s'exprime en disant que le produit est une forme bilinéraire antisymétrique sur R. Ce quipeut se noter différemment:

v *w = vF tw avec F =

0 1 1 ... 1−1 0 1 ... 1−1 −1 0 ... 1... ... ... ... ...−1 −1 −1 ... 0

Le membre de droite représente le produit matriciel du vecteur ligne v, de la matrice F et duvecteur colonne wt.

4) v*v = 0 cas particulier de l'antisymétrie

5) On définit pour v = (vi)i=1,n , p(v) = (vn-i)i=1,n ; par exemple: p(1, 2, 3, 4) = (4, 3, 2, 1)

On a p(v)*p(w) = -v*w

6) Soit T un tableau. v et w les vecteurs constitués de sa première et deuxième lignerespectivement. v*w correspond au coefficient S noté ici S(T).

7) T est un tableau, v sa première ligne, T' le reste du tableau, u(T') le vecteur constitué destotaux marginaux de T' (colonne). On a:

S(T) = v*u(T') + s(T')

Cette relation permet de calculer S de proche en proche.

Page 32: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

8) T est un tableau, a le premier élément de sa première ligne, v le reste de sa première ligne,T' le reste, w la première colonne de T', T''' le reste, T'' est T sans sa première colonne. n(v)ou n(T') représente la somme des éléments d'un vecteur ou d'un tableau.

a v a v a

T = = = T''

w T''' T' w

S(T) = a n(T''') - n(v)n(w) + S(T') + S(T'')

9) S change de signe lorsque l'on effectue une symétrie d'axe vertical du tableau. Celadécoule de 5) et 7).

10) S change de signe lorsque l'on effectue une symétrie d'axe horizontal du tableau. Celadécoule de 1) et 7). Cette propriété permet de calculer le S sur de petites calculatrices.

11) S est invariant par transposition, cela découle de 8) et d'une démonstration directe dans lecas des tableaux de 2 lignes.

12) Considérons un "plan factoriel" avec deux caractères indépendants dont le premierpossède deux attributs (par exemple le caractère "Sexe" avec les deux attributs "fille" et"garçon"). Les attributs du deuxième caractère (Niv: niveau socio-économique) sonthiérarchisés de même que le caractère dépendant (Niveau opératoire d'attributs NC, I et C).

Voici un exemple d'un tel plan:

NC I C

Sexe Niv

Sup

fille Moy

Inf

Sup

garçon Moy

Inf

Dans ce cas: STotal = SSexe + S+

- STotal est la valeur du S calculée sur l'ensemble du tableau (12 cases). Ce nombre n'a pas designification concrète précise.

- SSexe est la valeur du S calculée en regroupant les sous-groupes définis par Niv.

- S+ = (SNiv|fille + SNiv|garçon), où SNiv|fille est la valeur du S calculée pour le groupe "fille". Dupoint de vue distribution, S+ est plus large que la simple somme des valeurs de S calculées

Page 33: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

pour "fille" et "garçon" puisque les conditions sur les totaux marginaux ne sont plus lesmêmes.

Les deux termes de la somme sont indépendants donc: vTotal = vSexe + v+

13) Si maintenant on modifie le tableau primitif en:

NC I C

Sexe Niv

Sup t1

fille Moy t2 tt1

Inf t3

Inf t4

garçon Moy t5 tt2

Sup t6

u1 u2 u3

On a: S'Total = SSexe + S-

v'Total = vSexe + v-

S- peut être pris comme une mesure de l'interaction entre les deux caractères. La variance desa distribution est : v- = v'Total - vSexe

v− =2 tt j

3 − ti3∑∑( ) + 3 tt j

2 − ti2∑∑( )

18+

ti3 − tt j

3∑ − 3 ti2 − tt j

2∑∑( )∑( ) ui3 − 3 ui

2∑ + 2n∑( )9n(n −1)(n − 2)

+

ti2 − tt j

2∑∑( ) ui2 − n∑( )

2n(n −1)

Page 34: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients
Page 35: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Annexe 7: Le cas des échantillons "appareillés"

Dans le cas d'une expérience où les mêmes individus qui constituent les deux groupes G1 etG2 (échantillons appareillés), on peut s'intéresser à la progression des sujets. Dans ce cas uneautre structure s'impose même si, très souvent, on utilise un tableau du même type. Parailleurs, il serait possible d'utiliser le coefficient S muni d'une autre distribution9. L'usage aconsacré d'autres formules.

Exemple : quatre individus actualisent à un premier test (pré-test) puis à un deuxième test(post-test) les niveaux opératoires: i1 : NC-NC ; i2 : NC-C ; i3 : I-C ; i4 : C-C

Dans ce cas, c'est le progression qui nous intéresse. Quels sont, à ce propos, les patternspossibles ?

Cas 1 : la théorie prévoit des régressions, on distingue des niveaux de progression.

Catégories: NC I C

progressions possibles: 0, 1 ou 2 -1, 0 ou 1 -2, -1 ou 0

9 On peut voir comment la distribution du S = ad - bc peut varier si l'on ajoute l'identité des sujets. Prenonsl'exemple suivant:

1 2

G1 5 1 6 G2 2 2 4

7 3 10

Il y a quatre tableaux possibles présentant les mêmes totaux marginaux:

1) 3 3 S = -12 2) 4 2 S = -2 3) 5 1 S = 8 4) 6 0 S = 18 4 0 3 1 2 2 1 3

Si l'on ajoute l'identité des individus, chaque tableau est la manifestation, macroscopique, de plusieurs situationsmicroscopiques.

Cas L: les individus sont attribués à une ligne. Les tableaux 1) à 4) se réalisent dans respectivement: 20, 60, 36 4situations microscopiques différentes.

Cas C: les individus sont attribués à une colonne. Les tableaux 1) à 4) se réalisent dans respectivement: 35, 63,105, 7 situations microscopiques différentes.

Cas T: les individus ne sont ni attribués à une ligne, ni à une colonne. Dans ce cas les tableaux se réalisentrespectivement: 4200, 12600, 7560, 420 fois.

La distribution du S devient:

S: -12 -2 8 18

Cas habituel: 1/4 1/4 1/4 1/4Cas L: 1/6 1/2 3/10 1/30Cas C: 1/6 1/2 3/10 1/30Cas T: 0.17 0.51 0.31 0.017

Page 36: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

En faisant la somme (X), pour chaque pattern, de toutes les progressions, on trouve ladistribution suivante:

X: -3 -2 -1 0 1 2 3 4 5

1 4 10 16 19 16 10 4 1

Dans notre exemple X = 3 et donc p = 15/81 = 0.19

Cas 2 : la théorie ne prévoit pas de régression, on ne distingue pas de niveaux de progression.Ce cas est apparenté, ainsi que le suivant, au test de Wilcoxon.

Catégories: NC I C

progressions possibles: 0 ou 1 0 ou 1 0

En faisant la somme (N), pour chaque pattern, de toutes les progressions, on trouve ladistribution suivante:

N: 0 1 2 3

1 3 3 1

Dans notre exemple N = 2 et donc p = 4/8 = 0.5

Cas 3 : la théorie ne prévoit pas de régression, on distingue des niveaux de progression.

Catégories: NC I C

progressions possibles: 0, 1 ou 2 0 ou 1 0

En faisant la somme (W), pour chaque pattern, de toutes les progressions, on trouve ladistribution suivante:

W: 0 1 2 3 4 5

1 3 4 4 3 1

Dans notre exemple W = 3 et donc p = 8/16 = 0.5

Il est très facile de chercher dans chaque cas les distributions théoriques exactes. Si on a rgroupes constitués de n1, ... nr individus (n au total) on a:

µ v

Cas 1 : n(r-1)/2 - r(r-1)/2 rn(r-1)/4

Cas 2 : (n-nr)/2 (n-nr)/4

Cas 3 : Σ1->r-1 ni(r-i)/2 Σ1->r-1 ni((r-i)2 - 2(r-i))/12

Page 37: Un choix de statistiques non paramétriques pour les ...Ces tableaux sont des tableaux de contingence. Tests construits à partir du coefficient S Il est utile de connaître des coefficients

Table des matières (à faire)

pageIntroduction 1

Structure et patterns 1Passage à un indice global 3Calcul des rangs 4

Tests construits à partir du coefficient S 5Rank-sum test 5S et U de Mann et Whitney 6S et rang 7Distribution du S 8Rank-sum test avec répétition 9Le test (exact) de Fisher 9Le test de Jonkheere 10Le test de Kendall 11

Méthode des coefficients "Lambda" 13

Hypothèse spécifique ou non 14

Le cas des hypothèses non spécifiques,l'analyse de variance non paramétrique 14

Mesure des effets 15Coefficient Delta de Somer 15Coefficient Gamma de Goodman et Kruskal 16Les coefficients Tau 17

Problème des plans factoriels 17Passage par le S 18Procédure de Meddis 19Hypothèses non spécifiques 20

Bibliographie 21

AnnexesDistributions exactes de S 23La correction de continuité 25Distribution normale centrée réduite et du 2 28Usage des logiciels de statistique 29Etude d'une interaction à l'aide du coefficient S 33Quelques propriétés du coefficient S 35Le cas des échantillons appareillés 39