Lemme de Neyman-Pearson
Nous avons mentionné que l'identification de la Meilleure Région Critique (celle qui maximise la puissance d'un test) était en général difficile. Cependant, il existe une situation dans laquelle cette tâche est relativement aisée, et est complètement résolue par le Théorème (ou "Lemme") de Neyman-Pearson.
Une hypothèse H est dite simple si elle spécifie complètement la distribution considérée lorsqu'elle est vraie. Le type d'hypothèse simple le plus commun consiste à affecter une valeur à l'unique paramètre non spécifié d'une distribution :
H : θ = θ0
mais nous verrons un exemple d'hypothèse simple qui ne porte pas sur la valeur d'un paramètre.
Une hypothèse telle que H : θ
> θ 0 , qui n'est
pas simple, est dite composite.
Le Théorème de Neyman-Pearson porte sur l'identification de la Meilleure Région Critique (MRC) d'un test lorsque l'hypothèse nulle et l'hypothèse alternative sont toutes deux des hypothèses simples. Le test se lit alors :
|
|
* H0 : θ = θ0 |
|
|
* H1 : θ = θ1 |
Si H0 est vraie, la distribution est entièrement déterminée, et il en est de même de la vraisemblance L(x, θ0 ) de l'échantillon. De même, si H1 est vraie, la distribution est entièrement déterminée, et il en est de même de la vraisemblance L(x, θ1 ) de l'échantillon.
Il semble naturel de favoriser l'hypothèse conduisant à une valeur élevée de la vraisemblance, mais cette intuition a besoin d'être étayée par une approche plus rigoureuse. C'est ce que fait le Théorème de Neyman-Pearson.
Le Théorème (que nous démontrons ci-dessous) affirme que :
* Pour tout niveau de signification α,
* Il existe un nombre kα tel que la Meilleure Région Critique pour le test est la région de l'espace des observations définie par :
|
L(x, θ1 ) / L(x, θ0 ) > kα |
ou, en mots :
* La MRC est la région comprenant tous les échantillons tels que la valeur du rapport des vraisemblances sous les deux hypothèses soit au-dessus d'un certain seuil défini par α.
Le rapport des vraisemblances n'est pas une statistique de test :
* Ce n'est pas une statistique, car il dépend non seulement de l'échantillon x, mais également des deux paramètres θ1 et θ0.
* Le test ne repose pas sur la distribution de probabilité du rapport des vraisemblances (d'ailleurs en général inconnue), comme, par exemple, ANOVA repose sur la distribution de la statistique F.
Cependant, on peut dire que toute l'information contenue dans l'échantillon et utile pour le test est concentrée dans l'unique valeur du rapport des vraisemblances.
Un test basé sur le Théorème de Neyman-Pearson consiste donc en deux étapes :
* Calculer kα à partir de α.
* Identifier la région de l'espace des observations définie par l'inégalité ci-dessus.
Cette dernière étape est le plus souvent facilitée par l'identification en cours de route d'une authentique statistique dont présence de la valeur dans une certaine région de R garantit la présence de l'échantillon dans la région de Neyman-Pearson (voir par exemple ci-dessous "Moyenne de la distribution normale").
-----
Un test de Neyman-Pearson est donc en fait un problème d'algèbre dans lequel n'entrent pas de distributions de probabilité (sauf, bien entendu, dans la définition des hypothèses nulle et alternative).
Nous montrerons que sous les mêmes conditions (les hypothèses du test sont toutes les deux simples), on a toujours :
|
1 - β > α |
où β est la probabilité d'une erreur de Type II. En d'autres termes :
La probabilité pour que l'échantillon soit dans la MRC est plus grande lorsque H1 est vraie que lorsque H0 est vraie.
un résultat qui nous conforte dans l'idée de rejeter H0 en faveur de H1 quand l'échantillon est dans la Meilleure Région Critique.
-----
Tout test ayant cette propriété est dit "sans biais".
Nous montrerons que, toujours dans les mêmes conditions, α et β varient toujours en sens inverses. Donc, pour une taille d'échantillon donnée, si l'on décide de réduire la probabilité d'une erreur de Type I en réduisant la valeur de α, on augmentera malheureusement la probabilité d'une erreur de Type II, et réciproquement.
Toujours dans les mêmes conditions, on peut montrer que (1 - β), la puissance du test, tend vers 1 quand la taille de l'échantillon tend vers l'infini. Nous ne démontrerons pas ce résultat difficile, mais il apparaîtra comme naturel dans l'interprétation graphique que nous donnerons du test lorsque le paramètre θ admet une statistique exhaustive.
Nous montrerons que l'expression du Théorème de Neyman-Pearson prend une forme particulièrement simple quand le paramètre θ admet une statistique exhaustive. Cette forme découlera naturellement du Théorème de Factorisation.
-----
Nous pourrons alors donner des représentations graphiques particulièrement convaincantes :
* Du niveau des signification α,
* Et de la puissance (1 - β) du test,
ainsi que du fait que α et β varient en sens opposés.
Le lemme de Neyman-Pearson ne s'applique qu'à deux hypothèses simples. Cependant, l'idée d'utiliser la vraisemblance pour tester des hypothèses composites est séduisante. Le développement de cette idée conduit au "Test du Rapport de Vraisemblance", une méthode puissante et générale de construction de tests portant sur les paramètres d'une distribution.
___________________________________________________________________
|
Tutoriel 1 |
Dans ce premier Tutoriel, nous démontrons le Théorème de Neyman-Pearson.
Nous démontrons ensuite deux conséquences importantes :
* La puissance 1 - β du test est supérieure à α, le niveau de signification du test.
* α et β varient en sens opposés.
LE THEOREME DE NEYMAN-PEARSON
|
Le Théorème de Neyman-Pearson Le problème Rapport des vraisemblances Démonstration kα existe toujours Neyman-Pearson sans paramètre La puissance est supérieure au niveau de signification α et β varient en sens opposés |
||
|
TUTORIEL |
||
________________________________________________________
|
Tutoriel 2 |
Nous passons maintenant en revue quelques applications du Théorème de Neyman-Pearson.
* Nous l'utilisons pour identifier la MRC du test à hypothèses simples portant sur la valeur de la moyenne de la distribution normale.
* Nous abordons ensuite le cas du test portant sur la position du paramètre de position de la distribution de Cauchy dans le but de montrer que malgré la "simplicité" des hypothèses, la structure de la MRC change de façon spectaculaire avec la valeur choisie pour α, le niveau de signification du test.
* Nous donnons un exemple d'application du Théorème de Neyman-Pearson à une situation où les hypothèses sont simples mais ne portent pas sur les valeurs d'un paramètre.
-----
Nous passons ensuite à l'importante question d'un paramètre admettant une statistique exhaustive. Le Théorème de Neyman-Pearson prend alors une forme particulièrement simple que nous utilisons pour retrouver le résultat obtenu dans le Tutoriel précédent sur la moyenne de la distribution normale.
Les concepts de "niveau de signification" et de "puissance" recevront alors une représentation graphique instructive, laquelle mettra également en évidence le fait que α et β varient en sens opposés.
EXEMPLES D'APPLICATIONS
DU THEOREME DE NEYMAN-PEARSON
|
Moyenne de la distribution normale Paramètre de position de la distribution de Cauchy Un test sans spécification de valeurs d'un paramètre Statistique exhaustive Nouvelle expression pour la MRC Retour sur la distribution normale Interprétation graphique MRC et niveau de signification Probabilité d'une erreur de Type II Puissance du test |
||
|
TUTORIEL |
||
_______________________________________________________
Voir aussi :