Test
Les Tests forment avec l'Estimation la partie dite "inférentielle" de la Statistique.
Nous présentons dans un premier temps un test simple, que nous décortiquons afin d'en identifier les idées principales. Nous développerons et formaliserons ces idées par la suite.
Une certaine pièce de monnaie a la réputation d'être "honnête". Autrement dit, lorsqu'on la lance, la croyance générale est que la probabilité p pour qu'elle retombe sur "Pile" est égale à 0,5 (et donc la probabilité pour qu'elle retombe sur face est égale à q = (1 - p) = 0,5).
Nous allons décrire une procédure nous permettant de nous faire une opinion sur la crédibilité de cette réputation d'honnêteté. Cette procédure s'appelera un test. Ce test portera sur la valeur de la probabilité p qu'a la pièce de retomber sur Pile.
Nous allons faire la seule chose que nous pouvons faire devant une distribution de probabilité inconnue : tirer un échantillon de cette distribution. Ici, la distribution est une distribution de Bernoulli b(p) dont l'unique paramètre est p.
Nous lançons donc la pièce, disons 10 fois. Le résultat de cette série de 10 lancers est le suivant :
|
0 |
1 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
où :
* "1" représente Pile,
* "0" représente Face.
Nous disposons maintenant d'un échantillon de taille 10 issu de la distribution de Bernoulli mentionnée. Dans cet échantillon se trouve la totalité de l'information que nous pouvons obtenir sur la distribution.
Nous pouvons penser calculer la probabilité de cet échantillon, et utiliser la valeur de cette probabilité comme un indicateur de la plausibilité de l'hypothèse d'honnêteté de la pièce (p = 0,5).
Un faible probabilité serait alors considérée comme un indice venant contredire cette hypothèse.
Mais, s'il est effectivement vrai que p = 0,5, alors tous les échantillons ont exactement la même probabilité (qui est ici égale à (0,5)10, voir ici), et la probabilité de l'échantillon sous l'hypothèse p = 0,5 ne nous est d'aucun secours pour nous faire une opinion sur la plausibilité de l'hypothèse p = 0,5.
Par contre, nous pouvons extraire de cet échantillon une information partielle qui, elle, va orienter notre réflexion : le nombre de Piles. Ce nombre est ici égal à 3, et nous pouvons calculer la probabilité pour que 10 lancers d'une pièce honnête produise exactement 3 Piles (voir distribution binomiale). En l'occurence, cette probabilité est égale à 0,117.
La distribution binomiale nous dit que :
* La situation la plus probable est celle où les nombres de Piles et de Faces sont approximativement égaux (illustration ci-dessous).
* Alors que les situations les moins probables sont celles où il y a un fort déséquilibre entre les nombres de Piles et de Faces (image inférieure de l'illustration ci-dessous).
Ainsi, le nombre de Piles est un bon indicateur de la crédibilité de l'hypothèse p = 0,5.
Ce nombre est une fonction des observations de l'échantillon : c'est ce que l'on appelle une statistique. Le fait essentiel à propos de cette statistique est que nous en connaissons la distribution si l'hypothèse p = 0,5 est vraie : c'est la distribution binomiale B(10, 0,5). Crâce à cette connaissance, nous pouvons utiliser la valeur de cette statistique pour quantifier la crédibilité de l'hypothèse testée.
Nous allons dorénavant raisonner sur cette statistique, qui va être promue au rang de statistique du test.
Rejeter l'hypothèse p = 0,5 sur la foi d'un nombre trop faible ou trop élevé de Piles comporte un risque. En effet, même une pièce parfaitement honnête peut produire 10 Piles d'affilée. Nous savons donc que notre décision de rejeter l'hypothèse p = 0,5 peut nous conduire à commettre un erreur.
Ce risque d'erreur est quantifiable. Supposons que nous décidions a priori de rejeter l'hypothèse p = 0,5 si l'on observe 0, 1, 9 ou 10 Piles, nous pouvons calculer, grâce à la loi binomiale, la probabilité pour qu'un tel évènement se produise avec une pièce honnête. Cette probabilité est égale à :
P{Nb Piles = 0} + P{Nb Piles = 1} + P{Nb Piles = 9} + P{Nb Piles = 10}
soit environ 0,02.
Cette probabilité s'appelle le niveau de signification (ou "niveau de risque") du test. C'est la probabilité pour que nous rejetions à tort l'hypothèse p = 0,5 sur la base du critère de rejet que nous nous sommes imposé.
Nous avons décidé de rejeter l'hypothèse p = 0,5 si l'on observe :
* 1 fois Pile, ou moins.
* 9 fois Pile, ou plus.
Les valeurs "1" et "9" s'appellent les valeurs critiques de la statistique de test. Si la valeur de cette statistique est au-delà de ces valeurs critiques, l'hypothèse sera rejetée. La région définie par les valeurs au-delà des valeurs critiques s'appelle la région critique.
Cette région critique dépend du niveau de signification choisi. Si nous avions choisi un niveau de signification de 0,15 (au lieu de 0,02), alors un calcul simple montre que les valeurs critiques auraient été non plus 1 et 9, mais 2 et 8. Autrement dit, nous aurions dû rejeter l'hypothèse si l'on avait observé 0, 1, 2, 8, 9 ou 10 Piles.
On voit clairement que le risque de rejeter à tort cette hypothèse aurait alors augmenté.
____________________________
Nous arrêtons là la description de notre petit test, qui nous a permis d'introduire certains des concepts que l'on retrouve dans tous les tests.
Il est temps maintenant de reprendre et d'étendre ces notions, ainsi que de les formaliser de façon à pouvoir les utiliser dans des situations très diverses. Cette formalisation sera indispensable pour introduire la notion fondamentale de puissance d'un test.
Un test commence toujours par une hypothèse portant sur la distribution de probabilité D ayant donné naissance à l'échantillon disponible. Cette hypothèse porte le nom générique d'hypothèse nulle, et est notée H0. Il existe des dizaines d'hypothèses nulles classiques (nous en donnons quelques unes dans la page suivante). Dans l'exemple ci-dessus, l'hypothèse nulle est que la pièce est honnête. Dans la terminologie standard des tests, on écrira :
H0 : p = 0,5
L'hypothèse nulle peut porter sur plus d'une distribution,
comme par exemple l'hypothèse affirmant l'identité de deux distributions.
Notre seule source d'information sur la distribution D (et donc sur la plausibilité de l'hypothèse nulle) est un échantillon x = {x1, x2, ..., xn} de taille n tiré de cette distribution. Nous supposons que les tirages faits depuis D sont indépendants.
Tout l'art de la conception d'un test consiste à identifier une caractéristique d'un échantillon qui nous fasse juger que cet échantillon est en contradition avec l'hypothèse nulle. Dans l'exemple ci-dessus, cette caractéristique était le nombre de Piles.
Plus généralement, la conception d'un test passera par l'identification d'une statistique de test, c'est à dire d'une quantité dont valeur est jugée particulièrement représentative de la crédibilité de l'hypothèse nulle.
-----
Concevoir une statistique de test n'est pas une question simple. Si la statistique du test t est particulièrement intuitive, la plupart des tests classiques reposent sur des statistiques dont l'identification a demandé à leurs auteurs beaucoup d'efforts et d'imagination.
De plus, une statistique de test n'a aucune raison d'être unique, et le choix entre plusieurs statistiques candidates est une question difficile.
L'exemple ci-dessus nous a montré que le test reposait sur la connaissance de la distribution de la statistique lorsque l'hypothèse nulle est vraie. Cette connaissance est essentielle, mais elle est, elle aussi, le plus souvent difficile à découvrir.
Par exemple, la distribution t de la statistique T est difficile à établir, et c'est encore plus vrai de la statistique F d'ANOVA. Le calcul des distributions des statistiques des tests du Chi2 ou du test de Kolmogorov sont largement au-delà des limites de ce Glossaire.
Une fois la statistique de test identifiée, et sa distribution connue, le test proprement dit peut commencer.
La première chose que fait le praticien est de se fixer arbitrairement un niveau de signification (ou "niveau de risque"). C'est un nombre, compris entre 0 et 1, qui est la probabilité que l'on tolère de rejeter à tort l'hypothèse nulle lorsque celle-ci est vraie. Ce nombre est noté a.
Ce rejet se fera sur la base de la valeur prise par la statistique du test. Ce point est repris ci-dessous.
Le niveau de signification n'est pas une quantité statistique. C'est un nombre arbitraire choisi par l'analyste. Ce choix est basé sur la perception que l'on a de la gravité des conséquences d'un rejet injustifié de l'hypothèse nulle. Les niveaux de signification les plus communément utilisés sont a = 0,05 et a = 0,01. Ces nombres signifient que l'on tolère une probabilité de 5% (resp. 1%) de rejeter à tort l'hypothèse nulle.
Si l'on veut réduire ce risque, on choisira un niveau de signification plus faible. Par exemple, si le résultat du test doit conduire à prendre une décision critique, comme la recommendation d'une opération chirurgicale potentiellement dangereuse, le niveau de signification peut être abaissé à 0,001 ou moins.
-----
La méthodologie correcte des tests exige que la valeur du niveau de signification soit décidée avant la campagne de mesure, de façon à éviter la tendance bien naturelle à ajuster a posteriori le niveau de signification aux données de façon à pouvoir tirer du test une conclusion satisfaisant des idées préconçues.
Connaissant la distribution de la statistique du test quand H0 est vraie, il est facile de définir une condition de rejet de l'hypothèse nulle conduisant à une erreur avec une probabilité égale à a.
Dans l'exemple ci-dessus, le rejet se faisait sur la base d'un nombre de Piles trop faible, ou bien trop élevé. Cette condition définit les ailes de la distribution de la statistique comme étant la région conduisant au rejet de l'hypothèse nulle.
La région de U conduisant au rejet de l'hypothèse nulle s'appelle la région critique, et les limites de cette région s'appellent les valeurs critiques (de la statistique de test).
Dans le test t, la distibution de la statistique a une distribution t de Student, et la région critique se présente ainsi :
Pour le niveau de signification a choisi, les valeurs critiques sont cg et cd telles que la somme des aires sous la courbe de densité de probabilité de la statistique à gauche de cg et à droite de cd est égale à a.
* Si la valeur de la statistique T est dans la région critique, l'hypothèse nulle H0 = 0 est rejetée comme trop invraisemblable,
* Mais si cette valeur est en dehors de la région critique (image inférieure de l'illustration ci-dessus), l'hypothèse n'est pas rejetée.
"Ne pas rejeter l'hypothèse nulle" ne veut pas
dire "l'accepter comme vraie". Cela veut seulement dire que les données
ne sont pas en contradiction flagrante avec cette hypothèse.
La décision de rejet est basée sur le fait que, devant une valeur improbable de la statistique si H0 est vraie, nous avons le choix entre deux interprétations :
* H0 est vraie, et la valeur observée de la statistique est très improbable,
* Ou bien H0 est fausse,
et nous favorisons la seconde explication parce que nous ne croyons pas dans les "évènements rares".
Nous voyons apparaître une première difficulté de la notion de région critique. L'illustration ci-dessus montre que cg = - cd , mais nous n'expliquons pas ce qui motive ce choix. D'après notre définition du niveau de signification, toute paire de valeurs (cg , cd ) définissant une aire sous la courbe égale à a définit également une région telle que, lorsque H0 est vraie, la valeur de la statistique a la probabilité a de s'y trouver. Pourquoi avoir choisi celle que nous montrons ?
Nous revenons ci-dessous sur cette importante question.
Une fois choisie une région critique, l'hypothèse nulle est rejetée comme trop peu vraisemblable si la valeur de la statistique est à l'intérieur de cette région critique. Sinon, l'hypothèse nulle n'est pas rejetée.
Cependant, si nous revenons à l'expérience du lancer de pièce, même une pièce parfaitement honnête peut produire 10 Piles d'affilée. En rejetant l'hypothèse nulle, nous commettrions alors une erreur, dite de Type I.
Donc, par définition :
Une erreur de Type I est commise en rejetant l'hypothèse nulle lorsque celle-ci est en fait vraie.
Donc :
P{Erreur de Type I} = a
Par symétrie, considérons la situation suivante : la valeur de la statistique n'est pas dans la région critique, et nous ne rejetons donc pas l'hypothèse nulle. Pourtant, l'hypothèse nulle est fausse (bien sûr, nous ne le savons pas), et nous commettons donc une erreur. Cet autre type d'erreur s'appelle une "erreur de Type II".
Donc, par définition :
Une erreur de Type II est commise lorsqu'on ne rejette pas l'hypothèse nulle alors que celle-ci est en fait fausse.
Toujours par symétrie avec les erreurs de Type I, nous pourrions être tentés d'introduire la notion de "Probabilité d'une erreur de Type II". Mais nous allons voir que ce concept ne peut pas être défini sans ambiguïté à ce niveau de développement. Il nous manque un ingrédient essentiel : l'hypothèse alternative.
En pratique, un chercheur ne travaille jamais sur la seule hypothèse nulle. En fait, il espère le plus souvent que cette hypothèse est fausse et que la vérité est dans une autre hypothèse, dite "alternative", notée H1.
Par exemple, si les résultats expérimentaux d'un nouveau traitement de l'hypertension artérielle sont soumis à un test, l'hypothèse nulle est :
H0 : le nouveau traitement n'a aucun effet.
Le chercheur espère certainement que les données ne vont pas seulement démentir l'hypothèse nulle, mais vont aussi suggérer une réduction de la tension artérielle des patients. En conséquence, il formulera l'hypothèse alternative :
H1 : le nouveau traitement réduit la tension artérielle.
plutôt que l'hypothèse plus générale mais moins utile :
H1 : le nouveau traitement a un effet sur la tension artérielle.
Au regard de l'hypothèse alternative, nous remplacerons notre définition initiale de l'erreur de Type II :
Une erreur de Type II est commise lorsqu'on ne rejette pas l'hypothèse nulle alors que celle-ci est en fait fausse.
par celle-ci, plus restrictive mais plus opérationnelle :
Une erreur de Type II est commise lorsqu'on ne rejette pas l'hypothèse nulle alors que l'hypothèse alternative est vraie.
Cette seconde définition est moins générale que la précédente car il se peut que les hypothèses, nulle et alternative, soient fausses toutes les deux (pensez à la situation suivante : H0 : µ = µ0 contre H1: µ > µ0 alors qu'en réalité µ < µ0 ).
Avec cette nouvelle définition d'une erreur de Type II, nous pouvons revenir à la question de la probabilité de commettre une erreur de Type II.
La question est maintenant :
|
|
Si l'hypothèse alternative H1 est vraie (et donc si H0 est fausse), |
|
|
quelle est la probabilité pour que la valeur de la statistique soit en dehors de la région critique ? |
Cette probabilité peut maintenant être définie sans ambiguïté. Elle est notée b :
P{Ne pas rejeter H0 quand H1 est vraie} = b
Il est plus courant de raisonner en termes de (1 - b) que de b lui-même. La quantité (1 - b) s'appelle la puissance du test. C'est la probabilité pour que la valeur de la statistique de test soit dans la région critique quand H1 est vraie :
Puissance = 1 - b = P{Rejeter H0 quand H1 est vraie}
L'interprétation de la puissance apparaît maintenant clairement. Si le test rejette l'hypothèse nulle, nous voulons qu'il suggère également la validité de l'hypothèse alternative. L'expression ci-dessus montre alors que quand un test puissant rejette l'hypothèse nulle, nous pouvons accepter l'hypothèse alternative avec une faible probabilité d'avoir tort (erreur de Type II).
Pour une taille d'échantillon, une statistique de test et un niveau de signification donnés, la puissance du test ne dépend plus que du choix de la région critique. Il est important de comprendre que tant qu'on ne considère que les erreurs de Type I, toute région telle que la valeur de la statistique de test a une probabilité égale à a d'être dans cette région quand H0 est vraie est acceptable comme région critique.
Supposons que l'on teste (test t) :
* L'hypothèse nulle selon laquelle la valeur de la moyenne µ d'une distribution normale est égale à 0 (H0 : µ = 0),
* Contre l'hypothèse alternative
selon laquelle la µ est différente de 0 (H1 :
µ
0).
Le test admet comme statistique la moyenne empirique standardisée, dont distribution de probabilité est la courbe en t ci-dessous.
La région critique suivante est acceptable (au niveau de signification a = 0,05) :

car il est vrai que la probabilité pour que la valeur de la statistique soit dans cette région quand H0 est vraie est égale à 0,05.
Mais la présence de la valeur de la statistique du test dans la région critique ne suggère certainement pas que l'hypothèse alternative H1 soit vraie. Le test a alors une puissance tellement faible qu'il en devient inutilisable, et cette région critique n'est certainement pas la meilleure possible.
Mais si nous choisissons maintenant la région critique comme dans cette illustration :

alors la présence de la valeur de la statistique à l'intérieur de la région critique suggère maintenant que la moyenne de la distribution est substantiellement plus petite (resp. plus grande) que 0, un argument en faveur de H1. La puissance du test est alors importante.
La puissance reçoit parfois une interprétation
graphique simple. C'est par exemple le cas dans les applications du Théorème
de Neyman-Pearson impliquant des statistiques exhaustives (voir ici).
-----
Nous voyons donc que le choix de la région critique est dicté, pour un a donné, par le désir de maximiser la puissance du test, et donc de rendre le test apte à discriminer entre les deux hypothèses nulle et alternative.
Devant une paire d'hypothèses mutuellement exclusives (nulle et alternative), on cherchera à identifier la région critique qui maximise la puissance du test. Cette région s'appelle la Meilleure Région Critique (MRC).
Ce problème théorique est en général difficile, mais a été résolu une fois pour toutes dans toutes les situations ordinaires que rencontrera l'analyste. Les résultats sont assez intuitifs, et sont résumés plus bas.
Le Théorème de Neyman-Pearson
identifie la MRC pour une importante classe de tests.
La méthodologie correcte exige que l'analyste décide des valeurs de a et b avant toute collecte de données. Ces valeurs, ainsi que le choix d'une région critique imposent alors une certaine taille N d'échantillon car la puissance d'un test augmente avec N toutes choses égales par ailleurs. En pratique, on est en général confronté à des données qui ont été collectées sans considération pour les tests à venir. Il faut alors se satisfaire de la valeur de b qui sera calculée à partir de a, de l'hypothèse alternative (et donc de la région critique) et de N.
La question de la Meilleure Région Critique a été élucidée pour tous les tests classiques. Les résultats sont en général intuitifs, et prennent le plus souvent les formes "canoniques" suivantes.
-----
Nous ne considérons ici que la situation très fréquente où le test porte sur la valeur d'un paramètre q d'une distribution de probabilité, et où l'hypothèse nulle s'énonce :
H0 : q = q0
Les trois hypothèses alternatives les plus courantes sont alors :
----------
* H1 : q
q0
et la question est alors simplement : "Est-ce que l'échantillon est plausible ou non sous l'hypothèse q = q0 ".
La région critique est alors également répartie entre les deux ailes de la densité de probabilité de la statistique du test (pour une distribution continue).

C'est la situation exposée dans le paragraphe précédent.
----------
* H1 : q > q0
La question est : "Est ce que les données
suggèrent non seulement que
q
q0 , mais plus précisément que q >
q0 ?".
La région critique est alors sous l'aile droite de la densité de probabilité de la statistique du test (pour une distribution continue).

----------
* H1 : q < q0
La question est : "Est ce que les données
suggèrent non seulement que
q
q0 , mais plus précisément que q <
q0 ?".
La région critique est alors sous l'aile gauche de la densité de probabilité de la statistique du test (pour une distribution continue).

----------
Pour des raisons évidentes :
* Le premier type de test est dit bilatéral,
* Alors que le second type de test est dit unilatéral.
Les Meilleures Régions Critiques n'ont pas toujours des formes
aussi simples et intuitives. Nous donnons ici
quelques exemples de MRC aux comportements quelque peu exotiques.
ANOVA teste l'égalité des moyennes de plusieurs distributions normales (hypothèse nulle). La seule hypothèse alternative est que ces moyennes ne sont pas toutes égales.
La statistique F du test est un rapport tel que :
* Le numérateur est un nombre non négatif qui mesure la séparation entre les centres des groupes,
* Le dénominateur est un nombre non négatif qui mesure la dispersion à l'intérieur des groupes. On peut le concevoir comme un facteur de normalisation.
La statistique F est donc toujours non négative. Une très faible valeur de F indique que les centres des groupes sont très rapprochés, ce qui n'est certainement pas un argument en faveur de l'hypothèse alternative. Seules de grandes valeurs (positives) de F peuvent conduire au rejet de l'hypothèse nulle.

ANOVA est donc par nature un test unilatéral.
-----
D'autres tests possèdent cette particularité, comme par exemple les tests du Chi-2.
Dans un test unilatéral (disons, à droite), l'aire sous la courbe de densité de probabilité de la statistique à la droite de la valeur effectivement mesurée de cette statistique est la probabilité pour que la statistique prenne une valeur au moins aussi grande que cette valeur quand H0 est vraie (surface verte de cette illustration).
Elle s'appelle la p-value (ou "p-valeur") de la statistique.
Donc :
* L'hypothèse nulle est rejetée si la p-value est plus petite que le niveau de signification (surface verte est inférieure à a).
* Sinon l'hypothèse nulle n'est pas rejetée (image inférieure de l'illustration ci-dessus).
1) Une définition similaire s'applique aux tests unilatéraux
gauches.
2) Une définition similaire peut être donnée pour les tests bilatéraux,
mais est quelque peu artificielle. Les tests bilatéraux font en général appel
aux valeurs critiques plutôt qu'aux p-values.
Nous donnons dans la page suivante quelques exemples de tests parmis les plus courants.
___________________________________________
Cette page décrit l'approche la plus courante de la notion de test. Elle repose sur l'identification d'une statistique de test dont on connaît la distribution, la difficulté étant d'identifier la Meilleure Région Critique du test en fonction de l'hypothèse alternative.
Cette approche n'est pas la seule possible. Par exemple, le Théorème de Neyman-Pearson permet, pour une certaine catégorie de tests, d'identifier la MRC sans avoir recours à une statistique de test.
____________________________________________________________
Voir aussi: