|
Animation interactive |
ANOVA
Un des tests fondamentaux de la Statistique.
ANOVA est l'acronyme de "ANalysis Of VAriance", ou "Analyse de la Variance".
-----
Les trois groupes d'observations représentés ci-dessous ont été engendrés par trois distributions de probabilité dont on sait avec certitude qu'elles sont :

Par contre, on n'a aucune certitude concernant l'égalité de leurs moyennes.
ANOVA est un test dont l'objectif est de tester l'hypothèse selon laquelle les moyennes de ces trois distributions normales sont effectivement identiques.
Plus généralement, soient k groupes d'observations issus de k distribution normales indépendantes de variances identiques, et de moyennes respectives µ1, µ2, ..., µk. Les groupes n'ont pas besoin d'avoir des effectifs égaux.
ANOVA va tester :
L'analyste ayant préalablement choisi un niveau de risque a (typiquement 0,05 ou 0,01) :
Donc ANOVA peut donc être perçue comme une généralisation du test t de Student à plus de deux groupes.
-----
Comme tous les tests, ANOVA est utilisée dans l'espoir d'infirmer l'hypothèse nulle. Ainsi, si plusieurs groupes de patients souffrant d'hypertension sont soumis chacun à un traitement expérimental, on pense que ces traitements auront des effets différents, et on espère que certains d'entre eux s'avèreront particulièrement efficaces. Une ANOVA, effectuée sur des mesures de pression artérielle après traitement, devra alors montrer qu'il en est bien ainsi en tentant de rejeter l'hypothèse d'une égalité des moyennes des pressions artérielles de chaque groupe.
ANOVA est un test global. Si l'hypothèse d'égalité des moyennes est rejetée, ANOVA ne fournit pas d'analyse des raisons de ce rejet. L'exemple ci-dessus montre pourtant tout l'intérêt qu'il y aurait à pouvoir poursuivre l'analyse plus avant, par exemple en identifiant un groupe plus particulièrement "responsable" de ce rejet.
Cette question est difficile.
La Statistique a été amenée à développer un grand nombre de tests consécutifs à une ANOVA ayant rejeté l'hypothèse nulle, et destinés à analyser des raisons ayant amené ce rejet. Ces tests sont qualifiés de "a posteriori", ou "post hoc".
Par exemple, le test de Dunnett, a pour objectif est d'identifier un groupe parmi k dont la moyenne serait significativement différente de celle d'un groupe témoin (typiquement, un groupe auquel aurait été administré un placebo).
ANOVA repose sur des hypothèses très restrictives (normalité et égalité des variances des distributions), et parfois considérées comme irréalistes. Avant de procéder à une ANOVA, il convient donc de vérifier, ou mieux, de tester ces hypothèses par :
S'il apparaît que les données sont incompatibles avec les hypothèses d'ANOVA, il restera cependant possible de tester l'hypothèse d'égalité des moyennes en recourant à un test non paramétrique, le test de Kruskal-Wallis.
Rappelons que "ANOVA" signifie "Analyse de la Variance".
Il peut être surprenant de voir figurer le mot "variance" dans le
nom d'un test portant sur des moyennes. La raison est la suivante : si les moyennes des distributions sont différentes les unes
des autres, alors la variance du "méga-échantillon" regroupant
toutes les observations (sans référence à leur groupe) sera probablement plus
grande que la variance commune à chacune des distributions.
Les moyennes
sont donc indirectement comparées par un jeu de comparaisons de variances.
ANOVA est utilisée sur des échantillons "natifs", comme dans l'exemple brièvement évoqué ci-dessus. Mais on la rencontre également dans d'autres contextes :
Une des approches classiques de la Classification consiste à identifier des axes tels que les projections des classes sur ces axes soient "le plus séparées possible". Or le cœur d'ANOVA est la statistique F de Fisher (voir tutoriel ci-dessous), que l'on peut considérer comme une mesure de séparation d'échantillons issus de distributions normales de variances égales. Le niveau de signification d'un axe factoriel définis par l'AFD est donc tout naturellement déterminé par une ANOVA.
Le test de validité d'une Régression Linéaire (voir p. ex. ici) se résume par un tableau dit "ANOVA". La raison en est que le cœur de ce test est une "décomposition de la variance" de la variable à expliquer qui suit le même chemin mathématique que celui de l'ANOVA décrite dans cette page, bien qu'il n'y ait alors pas de "groupes".
____________________________________________________________
|
Tutoriel 1 |
Ce premier Tutoriel est un petit panorama de l'ANOVA univariée sans aucun recours aux mathématiques. Il explique le principe d'ANOVA, qui est à la fois simple et très astucieux.
PETIT PANORAMA D'ANOVA UNIVARIEE
|
Rappel : objectif d'ANOVA Principe d'ANOVA L'hypothèse nulle est vraie L'hypothèse nulle est fausse Le test |
||
|
TUTORIEL |
||
____________________________________
|
Tutoriel 2 |
Nous décrivons ensuite l'étape dite "de décomposition de la variance", similaire à celle que l'on retrouve dans le test de validité d'une Régression Linéaire. Cette étape est purement géométrique, et ne fait pas appel à des notions probabilistes.
DECOMPOSITION DE LA VARIANCE
|
Notations Décomposition de la variance La Somme des Carrés des Ecarts Totale (SCET) Décomposition de SCET Somme des Carrés des Ecarts Factoriels (SCEF) Somme des Carrés des Ecarts Résiduels (SCER) Equation de décomposition de la variance |
||
|
TUTORIEL |
||
________________________________________________
|
Tutoriel 3 |
Les diverses Sommes des Carrés sont des variables aléatoires, dont on étudie ensuite les distributions et les propriétés en tant qu'estimateurs de s². Malheureusement, le résultat clé (distribution de la somme des carrés des écarts factoriels) fait appel à un résultat mathématique qui dépasse le cadre de ce Glossaire, et que nous donnerons sans démonstration.
DISTRIBUTIONS DES SOMMES DE CARRES
|
Somme des Carrés des Ecarts Totale Distribution Estimation de s² Somme des Carrés des Ecarts Résiduels Distribution Estimation de s² Une tentative prématurée Somme des Carrés des Ecarts Factoriels (sans démonstration) Distribution Estimation de s² |
||
|
TUTORIEL |
||
______________________________________________________________
|
Tutoriel 4 |
Nous décrivons enfin la statistique utilisée par ANOVA. Elle s'avère suivre une distribution de Fisher, et ANOVA se ramène donc en définitive à un test F classique.
LE TEST F D'ANOVA
|
La statistique d'ANOVA La statistique F de Fisher Carrés moyens Le test F Le tableau ANOVA |
||
|
TUTORIEL |
||
____________________________________
Voir aussi: