Adéquation (Test d')

Cette illustration représente :

    * Une distribution complètement déterminée p0(x),

    * Et un échantillon x = {x1, x2, ..., xn} tiré d'une distribution inconnue.

 

A première vue, il ne semble pas vraisemblable que l'échantillon ait été tiré de p0(x) : il y a trop peu d'observations dans les régions de densité élevée (où les observations ont une forte probabilité d'apparaître), et trop d'observations dans les régions de faible densité. On dit qu'il y a une mauvaise adéquation (ou "adaptation") entre la distribution et l'échantillon.

Mais l'image inférieure de cette même illustration propose une autre distribution de probabilité p1(x) qui ne présente pas ce défaut, et dont l'adéquation à l'échantillon semble meilleure.

Comment rendre ce jugement quantitatif ?

 

Cette question est au cœur de la Statistique, dont le but ultime (et inaccessible) est d'identifier sans ambiguïté la distribution qui a donné naissance à un échantillon.

Il existe deux grandes approches à ce problème :

    1) La première consiste à choisir dans une famille donnée de distributions celle qui rend le mieux compte de l'échantillon selon un certain critère. Ceci se fait par des méthodes d'estimation :

        * Soit paramétriques, comme la méthode d'Estimation par Maximum de Vraisemblance,

        * Soit non paramétriques, comme la plupart des méthodes d'estimation de densité de probabilité.

    2) La seconde approche consiste à considérer une unique distribution candidate p(x), puis à examiner la question de savoir s'il est raisonnable de supposer que l'échantillon x a bien été engendré par p(x). Cette deuxième approche relève des tests d'adéquation, le sujet abordé dans cette entrée.


Nous verrons plus bas que la distinction entre ces deux approches n'est pas aussi tranchée : les tests d'adéquation peuvent être appliqués à des distributions dont les valeurs de certains paramètres ne sont pas connues et qui doivent alors être estimées, en général par MV.

Tests d'adéquation

Un test d'adéquation teste :

    * H0 : la distribution de probabilité qui a engendré l'échantillon est p(x).

contre

    * H1 : la distribution de probabilité qui a engendré l'échantillon n'est pas p(x).

 

Suivant le schéma général de construction d'un test, nous devons donc :

    * Dans un premier temps inventer une statistique (une fonction de l'échantillon) qui fournit intuitivement une bonne indication sur le fait que H0 est vraie ou fausse.

    * Puis calculer la distribution de probabilité sous H0 de cette statistique de test.

 

Un grand nombre de telles statistiques ont été étudiées, mais seules quelques unes sont utilisées en pratique. Nous décrivons maintenant les plus importantes.

Test du Chi-2

Le test du Chi-2 est certainement le plus connu des tests d'adéquation. Ce test porte par nature sur des distributions discrètes, mais les ditributions continues peuvent être discrétisées et le test du Chi-2 peut donc également s'appliquer à des distributions continues.

En raison de son importance pratique, une entrée de ce Glossaire est consacrée au test du Chi-2.

Tests basés sur la Fonction de Répartition Empirique

Une importante famille de tests d'adéquation repose sur l'idée suivante : sauf malchance, les observations apparaissent préférentiellement dans les régions où la fdp (pour les distributions continues) prend de grandes valeurs, et n'apparaissent que rarement dans les régions où la fdp ne prend que des petites valeurs (positives). Ceci se traduit alors par le fait que la Fonction de Répartition Empirique (FRE) Fn(x) doit être le plus souvent une bonne approximation de la vraie fonction de répartition F(x).

Cette idée intuitive est en fait un théorème parfois appelé Théorème Fondamental de la Statistique.

 

 

Les tests d'adéquation basés sur la FRE testent :

    * H0 :  F = F0

contre

    * H1 :  F  F0

F est la fonction de répartition de la distribution ayant engendré l'échantillon, et où F0 est la fonction de répartition de la distribution de référence.

Nous devons donc identifier une statistique qui soit une mesure raisonnable de l'écart entre la fonction de répartition empirique et la vraie fonction de répartition, puis calculer sa distribution sous H0.

Il existe de nombreuses telles statistiques.

Test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est le plus connu des tests d'adéquation basés sur la fonction de répartition empirique.

 

               La statistique de Kolmogorov

La statistique Dn du test est la plus grande valeur absolue de la différence entre la fonction de répartition empirique et la fonction de répartition de la distribution candidate :

Dn = sup|Fn(x) - F(x)|

 

 

    * Une faible valeur de Dn, comme dans l'illustration ci-dessus, signifie que la fonction de répartition empirique est toujours très proche de la f.r. de la distribution candidate, dont elle est alors une bonne approximation, un argument en faveur de H0.

    * L'image inférieure de cette même illustration représente une situation où la valeur de Dn est importante, ce qui est un argument en défaveur de l'hypothèse nulle F = F0.

               Distribution de la statistique de Kolmogorov

La distribution de Dn sous H0 est inconnue, mais elle ne dépend pas de F(x). Cette distribution a été abondamment simulée pour les petites valeurs de n.

La distribution asymptotique de Dn est connue et ne dépend bien entendu pas de F(x). Plus précisément

 

 

 

 Ce résultat est extrêmement difficile, et n'est pas démontré dans ce Glossaire.

Test de Cramér-von Mises

Il est surprenant qu'un test raisonnablement puissant comme l'est le test de Kolmogorov-Smirnov puisse être conçu en ne s'appuyant que sur une seule observation de l'échantillon et un seul point de la fonction de répartition candidate. Il semblerait plus efficace de mesurer la différence entre les deux fonctions de répartition en comparant ces fonctions sur l'intégralité de leur domaine (càd de -∞ à +∞).

Il existe une famille de tests dont les statistiques sont basées sur l'intégrale du carré de la différence (Fn(x) - F(x) )² entre la fonction de répartition empirique et la fonction de répartition de référence (norme L2). La plus simple de ces statistiques est :

qui est simplement l'aire comprise entre la fonction de répartition empirique et la fonction de répartition de référence.

 

 

Cette statistique n'est pas utilisée car le calcul de l'intégrale est en général impraticable.

On introduit alors un facteur de pondération arbitraire dK(x) :

qui, convenablement choisi, peut permettre le calcul de l'intégrale.

Le choix le plus classique pour K(x) est F(x) elle-même. La statistique W ² résultant de cet ajout s'appelle la statistique de Cramér-von Mises, qui est donc définie par :

 

 

 

L'avantage essentiel de ce choix de K(x) est que l'intégrale peut maintenant être calculée comme une somme ne faisant intervenir que les valeurs de F(x) pour les observations. Notons x(i) la statistique d'ordre de rang i de l'échantillon. Nous montrerons que :

 

 

 

La distribution de W ² est inconnue, mais est la même pour toutes les F(x) et a été abondamment simulée et tabulée pour les petites valeurs de n.

La fonction de répartition asymptotique de W ² est connue, mais elle est très compliquée et extrêmement difficile à établir.

Test d'Anderson-Darling

Une faiblesse du test de Cramér-von Mises vient de ce que la différence entre la fonction de répartition empirique et la fonction de répartition de référence tend vers 0 quand x → -∞ ou x → +∞. La valeur de W² est donc peu sensible aux positions exactes des observations "lointaines" dans les queues de distribution.

Ceci est regrettable, car l'analyste est souvent confronté à la question de savoir si la distribution d'évènements rares (représentés par ces observations lointaines) se conforme à une certaine idée a priori sur la nature de la distribution globale (pensez à la différence entre la distribution normale standard et la distribution t de Student).

Une modification de la statistique L2 élémentaire consiste alors à introduire une fonction de pondération qui redonne leur importance aux observations lointaines. La fonction de pondération la plus utilisée est

[F(x).(1 - F(x))]-1

qui est minimale aux alentours de la médiane, et qui tend vers l'infini quand x tend vers -∞ ou +∞. En fait, on montre facilement que F(x).(1 - F(x)) est la variance de la fonction de répartition empirique en x, de sorte que la statistique de test est maintenant l'intégrale du carré de la différence standardisée entre fonction de répartition empirique et fonction de répartition de référence.

La statistique A² est alors

 

 

qui s'appelle la statistique d'Anderson-Darling.

Cette statistique peut également s'exprimer sous la forme d'une somme, et nous montrerons que

 

 

 avec les mêmes notations que précédemment.

Remarques générales sur les tests d'adéquation basés sur la FRE

Tous les tests d'adéquation basés sur la comparaison entre "fonction de répartition empirique" et "fonction de répartition candidate" ont en commun un certain nombre de propriétés.

 

            La distribution de la statistique de test ne dépend pas de la distribution candidate

Considérons par exemple la statistique de Kolmogorov. Sa distribution dépend de n (la taille de l'échantillon), mais ne dépend pas de la distribution testée lorsque celle-ci est complètement déterminée. La même remarque s'applique aux statistique de Cramér-von Mises et d'Anderson-Darling.

Ceci peut paraître surprenant, mais s'explique par le fait que la Transformation par Fonction de Répartition (TFR) transforme les observations indépendantes issues de toute distribution de probabilité en variables indépendantes uniformément distribuées dans [0, 1]. Les considérations portant sur le comportement de la statistique de test se transforment alors en considérations portant sur les propriétés d'échantillonnage de l'unique distribution U[0, 1].

Au cas où cet argument informel serait jugé peu convaincant, nous le rendrons explicite en le démontrant dans le cas de la statistique de Kolmogorov. La démonstration s'adapte sans difficulté à toute statistique basée sur la fonction de répartition empirique.

-----

Ceci n'est plus vrai lorsque la distribution testée n'est pas complètement déterminée, et que certains de ses paramètres doivent être estimés à partir de l'échantillon.

 

            Paramètres estimés

Une des "bonnes" propriétés du test du Chi-2 est que le fait d'avoir à estimer les valeurs de paramètres a sur la distribution de la statistique du test des effets bien compris.

Pour les tests basés sur la fonction de répartition empirique, les choses sont moins simples. En particulier, il n'est plus vrai que la distribution de cette statistique ne dépende pas de la distribution considérée et il fallu procéder à des tabulations (par simulation de Monte-Carlo) pour de nombreuses distributions (normale, exponentielle, Gamma, Weibull, logistique etc...), ainsi que pour différentes tailles d'échantillon. La procédure de test doit alors commencer par procéder par l'estimation du vecteur θ des paramètres inconnus, et à utiliser la fonction de répartition correspondante F(x; θ) comme fonction de répartition de référence pour calculer la valeur de la statistique du test.


Il est souvent possible d'ajouter des termes correctifs (qui ne dépendent que de la taille de l'échantillon) à la statistique standard de façon à ce que la valeur "corrigée" de la statistique puisse être utilisée avec l'unique table des valeurs critiques de la distribution asymptotique de la statistique.

On peut cependant montrer que si les paramètres estimés sont un paramètre de localisation et/ou un paramètre d'échelle, la distribution de la statistique du test, bien que dépendant de la nature de la distribution, ne dépend pas de la valeur de ce(s) paramètre(s).

La démonstration de ce résultat est difficile, mais on peut présenter un argument heuristique en sa faveur.

 

 

Nous avons mentionné que la Transformation par Fonction de Répartition transforme les observations originales en v.a. uniformément distribuées dans [0, 1]. L'illustration ci-dessus (images supérieure et inférieure) montre clairement qu'un décalage de la fonction de répartition et de l'échantillon d'une même quantité ne change pas l'échantillon transformé, et donc ne change pas la distribution de toute statistique construite à partir de cet échantillon.

Un argument similaire s'applique au cas où l'échantillon et la fonction de répartition sont dilatés (resp. contractés) d'un même facteur.

Bien que la fonction de répartition de référence depende de l'échantillon (en raison de l'estimation des paramètres), on peut cependant espérer que la distribution de la statistique de test ne dépende pas des valeurs des paramètres de localisation et d'échelle. Il en est bien ainsi.

 

            Deux échantillons indépendants

Tous les tests d'adéquation basés sur la fonction de répartition empirique peuvent être transformés en tests abordant la question de savoir si deux échantillons indépendants sont ou non issus de distributions identiques.

 

            Distributions discrètes

Tous les tests d'adéquation basés sur la fonction de répartition empirique ont été adaptés, assez difficilement, aux distributions discrètes. Ils ne semblent pas avoir rencontré un grand succès dans ce domaine.

 

            Puissance

La comparaison des puissances de ces tests est une question complexe, la puissance d'un test dépendant fortement de la nature de l'hypothèse alternative. Trois conclusions peuvent cependant être énoncées (avec beaucoup de prudence !) :

    1) Globalement, les membres de la famille "Cramér-von Mises" sont plus puissants que le test de Kolmogorov-Smirnov. Ceci n'est pas absolument surprenant, le test de K-S détectant seulement une différence importante en un point entre la fonction de répartition empirique et la fonction de répartition de référence, alors que les membres de la famille C-vM examinent cette différence sur tout le domaine de variation de x.

    2) Les auteurs semblent s'accorder sur le fait qu'en l'absence de paramètre à estimer, le test d'Anderson-Darling est de tous le test le plus puissant.

    3) Le fait d'avoir à estimer des paramètres réduit la différence de puissance entre tests, le test de Kolmogorov-Smirnov restant cependant le moins puissant de tous.

______________________________________________________________

 

 

Tutoriel

 

1) Nous montrons dans un premier temps que la distribution de la statistique de Kolmogorov ne dépend pas de la distribution testée, sous réserve que sa fonction de répartition soit continue et croissante au sens strict.

La démonstration s'adapte sans difficulté à toute statistique basée sur la fonction de répartition empirique.

2) La statistique de Cramér-von Mises est définie par une intégrale dont le calcul numérique est difficile. Nous montrons que cette intégrale peut s'écrire sous la forme d'une somme ne faisant intervenir que les valeurs de la fonction de répartition de référence pour les observations (triées) de l'échantillon.

3) Exprimer la statistique d'Anderson-Darling sous forme d'une somme suit un cheminement similaire, mais un peu plus complexe. Nous ne donnons que les grandes lignes du calcul et quelques résultats intermédiaires. Le lecteur intéressé n'aura aucun mal à compléter les parties manquantes.

 

 

DIVERS RESULTATS SUR LES TESTS

BASES SUR LA F.R.E.

La distribution de la statistique de Kolmogorov ne dépend pas
de la distribution testée

 La statistique de Cramér-von Mises sous forme de somme

 La statistique d'Anderson-Darling sous forme de somme

Première intégrale

Seconde intégrale

Résultat final

TUTORIEL

 

________________________________________________

 

Voir aussi :

Tests du Chi-2

Transformation par Fonction de Répartition

Téléchargez ce Glossaire