Animation interactive

ANOVA

Un des tests fondamentaux de la Statistique.

ANOVA est l'acronyme de "ANalysis Of  VAriance", ou "Analyse de la Variance".

-----

Objectif d'ANOVA

Les trois groupes d'observations représentés ci-dessous ont été engendrés par trois distributions de probabilité dont on sait avec certitude qu'elles sont :

 

 

Par contre, on n'a aucune certitude concernant l'égalité de leurs moyennes.

ANOVA est un test dont l'objectif est de tester l'hypothèse selon laquelle les moyennes de ces trois distributions normales sont effectivement identiques.

 

Plus généralement, soient k groupes d'observations issus de k distribution normales indépendantes de variances identiques, et de moyennes respectives µ1, µ2, ..., µk. Les groupes n'ont pas besoin d'avoir des effectifs égaux.

ANOVA va tester :

L'analyste ayant préalablement choisi un niveau de risque a (typiquement 0,05 ou 0,01) :

Donc ANOVA peut donc être perçue comme une généralisation du test t de Student à plus de deux groupes.

-----

Comme tous les tests, ANOVA est utilisée dans l'espoir d'infirmer l'hypothèse nulle. Ainsi, si plusieurs groupes de patients souffrant d'hypertension sont soumis chacun à un traitement expérimental, on pense que ces traitements auront des effets différents, et on espère que certains d'entre eux s'avèreront particulièrement efficaces. Une ANOVA, effectuée sur des mesures de pression artérielle après traitement, devra alors montrer qu'il en est bien ainsi en tentant de rejeter l'hypothèse d'une égalité des moyennes des pressions artérielles de chaque groupe.

ANOVA et comparaisons multiples

ANOVA est un test global. Si l'hypothèse d'égalité des moyennes est rejetée, ANOVA ne fournit pas d'analyse des raisons de ce rejet. L'exemple ci-dessus montre pourtant tout l'intérêt qu'il y aurait à pouvoir poursuivre l'analyse plus avant, par exemple en identifiant un groupe plus particulièrement "responsable" de ce rejet.

Cette question est difficile.

La Statistique a été amenée à développer un grand nombre de tests consécutifs à une ANOVA ayant rejeté l'hypothèse nulle, et destinés à analyser des raisons ayant amené ce rejet. Ces tests sont qualifiés de "a posteriori", ou "post hoc".

Par exemple, le test de Dunnett, a pour objectif est d'identifier un groupe parmi k dont la moyenne serait significativement différente de celle d'un groupe témoin (typiquement, un groupe auquel aurait été administré un placebo).

Conditions pour une ANOVA

ANOVA repose sur des hypothèses très restrictives (normalité et égalité des variances des distributions), et parfois considérées comme irréalistes. Avant de procéder à une ANOVA, il convient donc de vérifier, ou mieux, de tester ces hypothèses par :

S'il apparaît que les données sont incompatibles avec les hypothèses d'ANOVA, il restera cependant possible de tester l'hypothèse d'égalité des moyennes en recourant à un test non paramétrique, le test de Kruskal-Wallis.

Pourquoi "ANOVA" ?

Rappelons que "ANOVA" signifie "Analyse de la Variance". Il peut être surprenant de voir figurer le mot "variance" dans le nom d'un test portant sur des moyennes. La raison est la suivante : si les moyennes des distributions sont différentes les unes des autres, alors la variance du "méga-échantillon" regroupant toutes les observations (sans référence à leur groupe) sera probablement plus grande que la variance commune à chacune des distributions.
Les moyennes sont donc indirectement comparées par un jeu de comparaisons de variances.

Les contextes d'ANOVA

ANOVA est utilisée sur des échantillons "natifs", comme dans l'exemple brièvement évoqué ci-dessus. Mais on la rencontre également dans d'autres contextes :

Analyse Factorielle Discriminante (AFD)

            Une des approches classiques de la Classification consiste à identifier des axes tels que les projections des classes sur ces axes soient "le plus séparées  possible". Or le cœur d'ANOVA est la statistique F de Fisher (voir tutoriel ci-dessous), que l'on peut considérer comme une mesure de séparation d'échantillons issus de distributions normales de variances égales. Le niveau de signification d'un axe factoriel définis par l'AFD est donc tout naturellement déterminé par une ANOVA.

Régression Linéaire

            Le test de validité d'une Régression Linéaire (voir p. ex. ici) se résume par un tableau dit "ANOVA". La raison en est que le cœur de ce test est une "décomposition de la variance" de la variable à expliquer qui suit le même chemin mathématique que celui de l'ANOVA décrite dans cette page, bien qu'il n'y ait alors pas de "groupes".

____________________________________________________________

 

 

Tutoriel 1

 

Ce premier Tutoriel est un petit panorama de l'ANOVA univariée sans aucun recours aux mathématiques. Il explique le principe d'ANOVA, qui est à la fois simple et très astucieux.

 

PETIT PANORAMA D'ANOVA UNIVARIEE

Rappel : objectif d'ANOVA

Principe d'ANOVA

L'hypothèse nulle est vraie

L'hypothèse nulle est fausse

Le test

TUTORIEL

____________________________________

 

Tutoriel 2

 

 Nous décrivons ensuite l'étape dite "de décomposition de la variance", similaire à celle que l'on retrouve dans le test de validité d'une Régression Linéaire. Cette étape est purement géométrique, et ne fait pas appel à des notions probabilistes.

 

DECOMPOSITION DE LA VARIANCE

Notations

Décomposition de la variance

La Somme des Carrés des Ecarts Totale (SCET)

Décomposition de SCET

Somme des Carrés des Ecarts Factoriels (SCEF)

Somme des Carrés des Ecarts Résiduels (SCER)

Equation de décomposition de la variance

TUTORIEL

 ________________________________________________

 

Tutoriel 3

 

Les diverses Sommes des Carrés sont des variables aléatoires, dont on étudie ensuite les distributions et les propriétés en tant qu'estimateurs de s². Malheureusement, le résultat clé (distribution de la somme des carrés des écarts factoriels) fait appel à un résultat mathématique qui dépasse le cadre de ce Glossaire, et que nous donnerons sans démonstration.

 

 

DISTRIBUTIONS DES SOMMES DE CARRES

Somme des Carrés des Ecarts Totale

Distribution

Estimation de s²

Somme des Carrés des Ecarts Résiduels

Distribution

Estimation de s²

Une tentative prématurée

Somme des Carrés des Ecarts Factoriels    (sans démonstration)

Distribution

Estimation de s²

TUTORIEL

 ______________________________________________________________

 

 

Tutoriel 4

 

 Nous décrivons enfin la statistique utilisée par ANOVA. Elle s'avère suivre une distribution de Fisher, et ANOVA se ramène donc en définitive à un test F classique.

 

LE TEST F D'ANOVA

La statistique d'ANOVA

La statistique F de Fisher

Carrés moyens

Le test F

Le tableau ANOVA

TUTORIEL

 

 ____________________________________

 

Voir aussi:

Test t

Test de Kolmogorov

Test de Dunnett

Comparaisons multiples

Téléchargez ce Glossaire