Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
Introduction à l’Analyse de Variance (ANOVA)
Jean Paul [email protected]
6 décembre 2017
Illustrée avec XLSTAT
www.xlstat.com
2
PLAN
• XLSTAT : qui sommes-nous ?
• Statistiques : catégories
• Rappel : tests statistiques
• ANOVA : un outil de modélisation
• Test statistique impliqué
• Conditions de validité
• Comparaisons multiples par paires
• Test de Kruskal-Wallis : un équivalent non-paramétrique de l’ANOVA à 1 facteur
• ANOVA à 2 facteurs + interaction
• Annexes : statistique de Welch et modèles mixtes
Toutes les données de ce webinar ont été inventées
sauf mention contraire
3
Logiciel XLSTAT
XLSTAT est un logiciel d’analyse de données
convivial qui s’intègre à Excel®,
PC & Mac
4
XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante
Thierry Fahmydéveloppe une
alternative user-friendly
pour l’analyse de données :
Naissance d’XLSTAT
Première vente sur
internet
Nouvelle version, Interface : VBA,
Calculs : C++7 langues
Nouveaux produitsNouveau site
Equipe grandissante
Création de la société
Addinsoft
Nouvelles offres
modulaires
XLSTAT 365Version Cloud
pour Excel 365XLSTAT-Free
1993 2000 2009 2016
201520061996
Intégration R
R
2017
5
XLSTAT en quelques chiffres
200+ fonctionnalités statistiques
Réparties dans des solutions généralistes ou
orientées-métier
100k utilisateurs
A travers le monde. Secteurs privé, éducation,
recherche
22 salariés
A l’écoute des utilisateurs
220k visites/mois sur le site web
Tutoriels didactiques en 5 langues
7 langues 10k téléchargements/mois
6
Statistiques : 4
catégories
7
Statistiques : 4 catégories
Description Exploration Tests Modélisation
Je veux résumer des
données grâce à des
calculs ou des
graphiques simples
(moyenne, écart
type, box plot…)
Je veux plonger
facilement dans un gros
jeu de données sans
forcément avoir une
question précise
derrière la tête (ACP,
CAH...)
Je veux accepter /
rejeter une hypothèse
bien précise en
assumant des risques
d’erreur (test t,
ANOVA, khi²,
corrélation...)
Je cherche à comprendre
comment évolue une
variable en fonction d’un
ensemble de variables
(régression, ANCOVA,
ANOVA)
8
Webinars : prochaines dates
Description Exploration Tests Modélisation
Enregistrement
ANOVA
Enregistrement Enregistrement Enregistrement
9
Tests statistiques :
rappel
10
Tests statistiques : rappel
?QuestionLa moyenne A est-elle significativement différente
de la moyenne B ?
H0
Hypothèse nulleEn général absence de différence ou de relation.
H0 : moyenne A = moyenne B
Ha
Hypothèse alternativeEn général existence de différence ou de relation
Ha : moyenne A ≠moyenne B
Le test renvoie une p-value. 0 < p-value < 1
Décision : Si p-value < alpha, on
rejette H0 et on accepte Ha
en prenant un risque p-value de se
tromper
11
ANOVA
Outil de modélisation d’une
variable à expliquer quantitative
par des variables explicatives
qualitatives
12
L’ANOVA : un modèle statistique
Erreurs (Résidus)
modèle
Sa
lair
e
Terre Pluton Mars
Salaire =
moyenne(modalité de référence) +
écart(modalité du point considéré)
un paramètre
deux paramètres
Modèle
Origine
+ résidus
Modalitéde référence
13
Evaluation du degré de piquant de 3 sauces
Question : Le degré de piquant moyen change-t-il en fonction de la sauce ?
Variable à expliquer(quantitative)
Ob
serv
ati
on
sVariable explicative (qualitative)
14
ANOVA
Test statistique impliqué
15
Graphique des moyennes et test mis en jeuV
ari
ab
le à
ex
pli
qu
er
Variable explicative= facteur
S1, S2, S3 : niveaux ou modalités
H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)
Ha : au moins une moyenne est différented’une autre
Décision : Si p-value < alpha, on rejette
H0 et on accepte Ha en prenant un
risque p-value de se tromper
16
Sur quoi la p-
value de l’ANOVA
se base-t-elle ?Ou pourquoi ANOVA (ANalysis Of
VAriance)
17
Pourquoi ANalyse de VAriance ?
L’effet statistique de la variable explicative se mesure grâce à un rapport de variances
Rapport F =Variance inter
Variance intra
Lorsque F , p-value
Variance intergroupe(modèle)
Variance intragroupe(erreur résiduelle)
18
ANOVA à 1 facteur : application XLSTAT
19
ANOVA à 1 facteur : interprétation
Décision : p-value < alpha (0,05) on rejette H0 et on
accepte Ha en prenant un risque de 4,9% de nous tromper
Variance inter
Variance intra
p-value
20
Le résultat est-il
valide ? Conditions
de validité
Hypothèses sur les résidus
21
Modèle linéaire : hypothèses sur les résidus
Indépendance
Pas d’autocorrélation. Une mesure par
individu
Normalité
Résidus suivent une distribution normale
Pas trop de valeurs hors-normes
En général, pas plus de 5% de résidus
hors-normes
Homogénéité...
... des variances des résidus
22
Indépendance
des résidusIndépendance assumée (pas de
liens entre les mesures)
23
Diagnostic de la
normalité : test
de normalité des
résidus
24
Test de normalité des résidus : application
XLSTAT
Résidus
25
Test de normalité des résidus : interprétation
Décision : p-value > alpha (0,05) la distribution des résidus
ne s’écarte pas significativement d’une distribution normale
26
Normalité : alternative
Si les points sont bien répartis le long de la bissectrice y = x, les données ne s’écartent pas
d’une distribution normale
27
Diagnostic de
l’homogénéité
des variances :
test statistique
28
Test d’homogénéité des variances : application
XLSTATVar. à expliquer
Var. explicative
29
Test d’homogénéité des variances :
interprétation
Décision : p-value > alpha (0,05) on ne rejette pas
l’hypothèse d’égalité des variances
30
Diagnostic des
résidus hors
normes
31
Geraphique résidus normalisés
Proposition : pas plus de 95% des |résidus| > 2 on n’a pas
trop de résidus hors-normes
32
Notre ANOVA est donc fiable...
H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)
Ha : au moins une moyenne est différented’une autre
Nous avons adopté Ha... Peut-on savoir précisément les moyennes qui diffèrent les unes des autres ?Place aux Comparaisons multiples par paires
33
Comparaisons
multiples par
paires
34
Comparaisons multiples par paires :
application XLSTAT
35
Comparaisons multiples par paires :
interprétation
Deux moyennes ayant au moins une lettreen commun ne sont pas significativementdifférentes (exemple : S3 et S1)
Deux moyennes n’ayant aucune lettre encommun sont significativementdifférentes (exemple : S3 et S2)
36
Test de Kruskal-
Wallis
Un equivalent non-paramétrique
de l’ANOVA à un facteur
37
Test de Kruskal-Wallis : application XLSTAT
38
Test de Kruskal-Wallis : interprétation
Décision : p-value > alpha (0,05) on ne rejette pas l’hypothèse H0.
Rappel : les tests paramétriques sont en général plus puissants que
leurs équivalents non-paramétriques.
39
Une deuxième
variable explicative
entre en jeu
ANOVA à deux facteurs + interaction
40
Une troisième colonne s’invite dans le jeu de
données
Questions : Le degré de piquant moyen change-t-il en fonction de la sauce ? Du juge ? De l’interaction entre les deux ?
Variable à expliquer(quantitative)
Ob
serv
ati
on
sVariables explicatives(facteurs)
Nous avons 8 juges (goûteurs). Chaque sauce est testée 3 fois par chaque juge.
Interaction : l’effet d’un facteurdépend de la modalité du deuxième facteur (exemple : effetsauce dépend du juge)
41
Cas simplifié avec 2 sauces & 2 juges :
Parmi les possibilités
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
De
gré
de
piq
ua
nt
42
Parmi les possibilités
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
Juge 1 Juge 2
Sauce 1
Sauce 2
De
gré
de
piq
ua
nt
Effet Sauce Effet Juge
Effet d’interaction Juge x Sauce Effet Juge, effet sauce et effet d’interaction Juge x Sauce
43
ANOVA à 2 facteurs : application XLSTAT
44
ANOVA à 2 facteurs : interprétation
Décision : les 3 p-value < alpha (0,05) on rejette les 3 hypothèses
H0 en prenant des risques très faibles de nous tromper
H0 : moyenne(J1) = moy(J2) = moy(J3)...
H0 : moyenne(S1) = moy(S2) = moy(S3)
H0 : le pattern des moyennes des sauces ne change pas en fonction des juges
Préférer la table Type III surtout sidispositifdéséquilibré
Effetsprincipaux
Effet d’interaction
45
Interpréter l’interaction
46
En résumé...
• ANOVA: Outil de modélisation d’une variable à expliquer quantitative par des variables explicatives qualitatives
(facteurs)
• L’ANOVA implique un test basé sur le rapport variance intergroupe / variance intragroupe.
• Conditions de validité : Indépendance, normalité, pas trop de valeurs hors normes, égalité des variances.
• Les Comparaisons multiples par paires permettent d’identifier quelles modalités spécifiques ont des moyennes
différentes les unes des autres.
• Le test de Kruskal-Wallis est un équivalent non-paramétrique de l’ANOVA à un facteur.
• Les ANOVA à plusieurs facteurs permettent d’exploiter des effets principaux et des effets d’interaction.
47
Webinars statistiques : conclusion
Description Exploration Tests Modélisation
Je veux résumer des
données grâce à des
calculs ou des
graphiques simples
(moyenne, écart
type, box plot…)
Je veux plonger
facilement dans un gros
jeu de données sans
forcément avoir une
question précise
derrière la tête (ACP,
CAH...)
Je veux accepter /
rejeter une hypothèse
bien précise en
assumant des risques
d’erreur (test t,
ANOVA, khi²,
corrélation...)
Je cherche à comprendre
comment évolue une
variable en fonction d’un
ensemble de variables
(régression, ANCOVA,
ANOVA)
48
Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)
Survey time…
Téléchargez la version d’essai de 30 jours
Découvrez nos produits
49
Annexe : la statistique de Welch
Statistique de Welch (ANOVA à 1 facteur uniquement) : propose une p-value fiable dans le cas du non-respect de l’hypothèse d’homogénéité des variances
50
Annexe : les modèles mixtes
Effets fixes : qui souvent nous intéressent (type de transport, produit, sexe, traitement…)
Effets aléatoires : qui ne nous intéressent que rarement mais qu’il faut prendre en compte car ils existent (juge, parcelle, expérimentateur, individu suivi au cours du temps…)
Pour une question mélangeant les deux types d’effets, il est recommandé d’utiliser un modèle mixte (peut remplacer l’ANOVA à 2 facteurs vue dans ce webinar)