Comparaisons multiples
Soient deux échantillons E1 et E2 issus de deux distributions normales indépendantes et de même variance. Un test t permettra de tester l’hypothèse selon laquelle ces deux distributions sont identiques (moyennes identiques).
Qu’en est-il si on a plus de deux échantillons ? ANOVA apporte une réponse satisfaisante sous forme d’un test global d’égalité des moyennes des échantillons. Mais on pourrait envisager une approche consistant à comparer les échantillons deux-à-deux par une série de tests t, et à rejeter l’hypothèse d’égalité des moyennes si au moins un des tests rejette cette hypothèse pour un couple d’échantillons.
Cette approche est défectueuse pour la raison suivante. Supposons que les distributions normales dont sont issues les échantillons soient effectivement identiques. Tout se passe alors comme s’il n’y avait qu’une seule distribution, dont on se serve pour créer un certain nombre d’échantillons. Bien que l’on s’attende à ce que les moyennes des différents échantillons soient proches de la moyenne de la distribution, rien n’interdit qu’une telle moyenne soit, par pur hasard, très éloignée de la moyenne de la distribution. En fait, plus grand est le nombre d’échantillons tirés de la distribution, plus grande est la probabilité pour qu’une telle situation se présente.
ANOVA prend en compte automatiquement une telle éventualité, mais pas la suite de tests t sur les paires d’échantillons. Lorsque le nombre d’échantillons comparés augmente, la probabilité pour qu’un des tests t détecte une différence significative des moyennes sur un couple d’échantillon augmente, mais si cela se produit, on ne pourra pas en conclure pour autant que l'ensemble des moyennes présente une hétérogénéité significative.
Plus spécifiquement, soit a le niveau de risque consenti pour une ANOVA sur k échantillons, et supposons que l’ANOVA ne mette pas en évidence de différence entre les moyennes à ce niveau de risque.
Effectuons ensuite les tests t sur toutes les paires d’échantillons au même niveau de risque a. Il est maintenant tout à fait possible qu’au moins un de ces tests mette en évidence une différence significative entre deux moyennes. Autrement dit, l’ensemble des tests t, considéré comme un test unique sur l’ensemble des échantillons, concluera à tort au rejet de l’hypothèse d’égalité des moyennes. Tout se passe donc comme si on avait fait une ANOVA fictive trop intolérante, et donc présentant un risque de première espèce a’ supérieur à a.
Ce problème se présente à chaque fois :
Dans les deux cas, la série de tests se comporte comme un test unique ayant un niveau de risque inférieur au niveau de risque nominal a du ou des tests utilisé(s). Autrement dit, il devient alors trop facile de rejeter l'hypothèse nulle.
-----
Il existe essentiellement deux manières de contourner cette difficulté.
1) La première est d'assouplir les tests de la série de façon à ce qu'il leur soit plus difficile de rejeter l'hypothèse nulle. On espère ainsi récupérer le niveau de risque souhaité à l'issue de l'ensemble des comparaisons. Par exemple, si l'on veut un niveau de risque a à l'issue de c comparaisons, chaque comparaison se fera au niveau a’ avec :
2) Cette approche est très limitée, car elle ne permet pas en général de garantir un niveau de rique bien défini à l'issue des c comparaisons. Il est plus judicieux (et plus difficile) de concevoir des tests spécifiques dans chaque situation de tests répétés. Il faut alors, pour chaque type de problème :
C'est par exemple ce qui se passe lorsqu'une ANOVA a rejeté l'hypothèse nulle à un certain niveau de risque a. Ce rejet se fait "en bloc", sans aucun détail sur les raisons qui l'ont provoqué. De nombreux tests (dits "post hoc", ou "a posteriori") ont été développés dans le but d'analyser plus finement la situation, et de comprendre ce qui a provoqué ce rejet. Par exemple :
____________________________________________________________
Voir aussi: