Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

1

Introduction à l’Analyse de Variance (ANOVA)

Jean Paul [email protected]

6 décembre 2017

Illustrée avec XLSTAT

www.xlstat.com

https://www.linkedin.com/in/jean-paul-maalouf/

https://www.facebook.com/Xlstat

https://twitter.com/XLSTAT

https://www.linkedin.com/groups/2160205

https://www.youtube.com/xlstat

2

PLAN

• XLSTAT : qui sommes-nous ?

• Statistiques : catégories

• Rappel : tests statistiques

• ANOVA : un outil de modélisation

• Test statistique impliqué

• Conditions de validité

• Comparaisons multiples par paires

• Test de Kruskal-Wallis : un équivalent non-paramétrique de l’ANOVA à 1 facteur

• ANOVA à 2 facteurs + interaction

• Annexes : statistique de Welch et modèles mixtes

Toutes les données de ce webinar ont été inventées

sauf mention contraire

3

Logiciel XLSTAT

XLSTAT est un logiciel d’analyse de données

convivial qui s’intègre à Excel®,

PC & Mac

4

XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante

Thierry Fahmydéveloppe une

alternative user-friendly

pour l’analyse de données :

Naissance d’XLSTAT

Première vente sur

internet

Nouvelle version, Interface : VBA,

Calculs : C++7 langues

Nouveaux produitsNouveau site

Equipe grandissante

Création de la société

Addinsoft

Nouvelles offres

modulaires

XLSTAT 365Version Cloud

pour Excel 365XLSTAT-Free

1993 2000 2009 2016

201520061996

Intégration R

R

2017

https://www.xlstat.com/fr/articles/xlstat-r-is-coming-soon-beta-testers-are-welcome

5

XLSTAT en quelques chiffres

200+ fonctionnalités statistiques

Réparties dans des solutions généralistes ou

orientées-métier

100k utilisateurs

A travers le monde. Secteurs privé, éducation,

recherche

22 salariés

A l’écoute des utilisateurs

220k visites/mois sur le site web

Tutoriels didactiques en 5 langues

7 langues 10k téléchargements/mois

6

Statistiques : 4

catégories

7

Statistiques : 4 catégories

Description Exploration Tests Modélisation

Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue une

variable en fonction d’un

ensemble de variables

(régression, ANCOVA,

ANOVA)

8

Webinars : prochaines dates


Enregistrement

ANOVA

Enregistrement Enregistrement Enregistrement

https://help.xlstat.com/customer/fr/portal/articles/2761028-enregistrements-webinars?b_id=9202




9

Tests statistiques :

rappel

10

Tests statistiques : rappel

?QuestionLa moyenne A est-elle significativement différente

de la moyenne B ?

H0

Hypothèse nulleEn général absence de différence ou de relation.

H0 : moyenne A = moyenne B

Ha

Hypothèse alternativeEn général existence de différence ou de relation

Ha : moyenne A ≠moyenne B

Le test renvoie une p-value. 0 < p-value < 1

Décision : Si p-value < alpha, on

rejette H0 et on accepte Ha

en prenant un risque p-value de se

tromper

11

ANOVA

Outil de modélisation d’une

variable à expliquer quantitative

par des variables explicatives

qualitatives

12

L’ANOVA : un modèle statistique

Erreurs (Résidus)

modèle

Sa

lair

e

Terre Pluton Mars

Salaire =

moyenne(modalité de référence) +

écart(modalité du point considéré)

un paramètre

deux paramètres

Modèle

Origine

+ résidus

Modalitéde référence

13

Evaluation du degré de piquant de 3 sauces

Question : Le degré de piquant moyen change-t-il en fonction de la sauce ?

Variable à expliquer(quantitative)

Ob

serv

ati

on

sVariable explicative (qualitative)

14

ANOVA

Test statistique impliqué

15

Graphique des moyennes et test mis en jeuV

ari

ab

le à

ex

pli

qu

er

Variable explicative= facteur

S1, S2, S3 : niveaux ou modalités

H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)

Ha : au moins une moyenne est différented’une autre

Décision : Si p-value < alpha, on rejette

H0 et on accepte Ha en prenant un

risque p-value de se tromper

16

Sur quoi la p-

value de l’ANOVA

se base-t-elle ?Ou pourquoi ANOVA (ANalysis Of

VAriance)

17

Pourquoi ANalyse de VAriance ?

L’effet statistique de la variable explicative se mesure grâce à un rapport de variances

Rapport F =Variance inter

Variance intra

Lorsque F , p-value

Variance intergroupe(modèle)

Variance intragroupe(erreur résiduelle)

18

ANOVA à 1 facteur : application XLSTAT

19

ANOVA à 1 facteur : interprétation

Décision : p-value < alpha (0,05) on rejette H0 et on

accepte Ha en prenant un risque de 4,9% de nous tromper

Variance inter

Variance intra

p-value

20

Le résultat est-il

valide ? Conditions

de validité

Hypothèses sur les résidus

21

Modèle linéaire : hypothèses sur les résidus

Indépendance

Pas d’autocorrélation. Une mesure par

individu

Normalité

Résidus suivent une distribution normale

Pas trop de valeurs hors-normes

En général, pas plus de 5% de résidus

hors-normes

Homogénéité...

... des variances des résidus

22

Indépendance

des résidusIndépendance assumée (pas de

liens entre les mesures)

23

Diagnostic de la

normalité : test

de normalité des

résidus

24

Test de normalité des résidus : application

XLSTAT

Résidus

25

Test de normalité des résidus : interprétation

Décision : p-value > alpha (0,05) la distribution des résidus

ne s’écarte pas significativement d’une distribution normale

26

Normalité : alternative

Si les points sont bien répartis le long de la bissectrice y = x, les données ne s’écartent pas

d’une distribution normale

27

Diagnostic de

l’homogénéité

des variances :

test statistique

28

Test d’homogénéité des variances : application

XLSTATVar. à expliquer

Var. explicative

29

Test d’homogénéité des variances :

interprétation

Décision : p-value > alpha (0,05) on ne rejette pas

l’hypothèse d’égalité des variances

30

Diagnostic des

résidus hors

normes

31

Geraphique résidus normalisés

Proposition : pas plus de 95% des |résidus| > 2 on n’a pas

trop de résidus hors-normes

32

Notre ANOVA est donc fiable...

H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)

Ha : au moins une moyenne est différented’une autre

Nous avons adopté Ha... Peut-on savoir précisément les moyennes qui diffèrent les unes des autres ?Place aux Comparaisons multiples par paires

33

Comparaisons

multiples par

paires

34

Comparaisons multiples par paires :

application XLSTAT

35

Comparaisons multiples par paires :

interprétation

Deux moyennes ayant au moins une lettreen commun ne sont pas significativementdifférentes (exemple : S3 et S1)

Deux moyennes n’ayant aucune lettre encommun sont significativementdifférentes (exemple : S3 et S2)

36

Test de Kruskal-

Wallis

Un equivalent non-paramétrique

de l’ANOVA à un facteur

37

Test de Kruskal-Wallis : application XLSTAT

38

Test de Kruskal-Wallis : interprétation

Décision : p-value > alpha (0,05) on ne rejette pas l’hypothèse H0.

Rappel : les tests paramétriques sont en général plus puissants que

leurs équivalents non-paramétriques.

39

Une deuxième

variable explicative

entre en jeu

ANOVA à deux facteurs + interaction

40

Une troisième colonne s’invite dans le jeu de

données

Questions : Le degré de piquant moyen change-t-il en fonction de la sauce ? Du juge ? De l’interaction entre les deux ?

Variable à expliquer(quantitative)

Ob

serv

ati

on

sVariables explicatives(facteurs)

Nous avons 8 juges (goûteurs). Chaque sauce est testée 3 fois par chaque juge.

Interaction : l’effet d’un facteurdépend de la modalité du deuxième facteur (exemple : effetsauce dépend du juge)

41

Cas simplifié avec 2 sauces & 2 juges :

Parmi les possibilités

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

De

gré

de

piq

ua

nt

42

Parmi les possibilités

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

De

gré

de

piq

ua

nt

Effet Sauce Effet Juge

Effet d’interaction Juge x Sauce Effet Juge, effet sauce et effet d’interaction Juge x Sauce

43

ANOVA à 2 facteurs : application XLSTAT

44

ANOVA à 2 facteurs : interprétation

Décision : les 3 p-value < alpha (0,05) on rejette les 3 hypothèses

H0 en prenant des risques très faibles de nous tromper

H0 : moyenne(J1) = moy(J2) = moy(J3)...

H0 : moyenne(S1) = moy(S2) = moy(S3)

H0 : le pattern des moyennes des sauces ne change pas en fonction des juges

Préférer la table Type III surtout sidispositifdéséquilibré

Effetsprincipaux

Effet d’interaction

45

Interpréter l’interaction

46

En résumé...

• ANOVA: Outil de modélisation d’une variable à expliquer quantitative par des variables explicatives qualitatives

(facteurs)

• L’ANOVA implique un test basé sur le rapport variance intergroupe / variance intragroupe.

• Conditions de validité : Indépendance, normalité, pas trop de valeurs hors normes, égalité des variances.

• Les Comparaisons multiples par paires permettent d’identifier quelles modalités spécifiques ont des moyennes

différentes les unes des autres.

• Le test de Kruskal-Wallis est un équivalent non-paramétrique de l’ANOVA à un facteur.

• Les ANOVA à plusieurs facteurs permettent d’exploiter des effets principaux et des effets d’interaction.

47

Webinars statistiques : conclusion


Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue une

variable en fonction d’un

ensemble de variables

(régression, ANCOVA,

ANOVA)

48

Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)

Survey time…

Téléchargez la version d’essai de 30 jours

Découvrez nos produits

https://www.facebook.com/Xlstat

https://twitter.com/XLSTAT

https://www.linkedin.com/groups/2160205

https://www.youtube.com/xlstat

https://www.xlstat.com/fr/telechargement

https://www.xlstat.com/fr/solutions

49

Annexe : la statistique de Welch

Statistique de Welch (ANOVA à 1 facteur uniquement) : propose une p-value fiable dans le cas du non-respect de l’hypothèse d’homogénéité des variances

50

Annexe : les modèles mixtes

Effets fixes : qui souvent nous intéressent (type de transport, produit, sexe, traitement…)

Effets aléatoires : qui ne nous intéressent que rarement mais qu’il faut prendre en compte car ils existent (juge, parcelle, expérimentateur, individu suivi au cours du temps…)

Pour une question mélangeant les deux types d’effets, il est recommandé d’utiliser un modèle mixte (peut remplacer l’ANOVA à 2 facteurs vue dans ce webinar)

Documents

Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives