Animation interactive

Chi-2  (Distribution du)

Définition de la distribution du Chi-2

La moyenne d'un échantillon de taille n issu d'une distribution normale standard N(0,1) suit la distribution N(0,1/n). Qu'en est-il de la distribution de la variance de cet échantillon ?

La variance a été définie dans le but de décrire la dispersion des observations d'un échantillon autour de la moyenne de la distribution. Il s'est avéré que la moyenne des carrés des écarts des observations de l'échantillon à la moyenne de la distribution a de bonnes propriétés mathématiques qui justifient a posteriori la définition de la variance.

C'est donc tout naturellement que l'on est amené à s'intéresser, dans le cas de la distribution N(0,1), à la distribution de la somme des carrés des écarts des observations de l'échantillon à la moyenne 0, donc, en fait, à la distribution de la somme des carrés des valeurs de ces observations.


La raison pour laquelle nous nous intéressons à la somme de ces carrés plutôt qu'à leur moyenne est expliquée dans le Tutoriel ci-dessous, voir "Additivité".

Donc, par définition, la distribution du Chi-2 (notée ) est celle de la somme des carrés des observations issues de la distribution N(0,1).

Plus précisément, et plus formellement :

 

 

(X1² + X2² +...+ Xn²) ~ n

 

Degrés de liberté

Il n'y a donc pas une distribution du , mais une famille de distributions indexée par le paramètre entier n. Ce paramètre est appelé "nombre de degrés de liberté" de la distribution. (On retrouve ce même terme dans d'autres familles de distributions, comme les distributions t de Student ou F de Fisher). La distribution "Chi-2 à n degrés de liberté" est donc définie comme celle de la somme des carrés de n variables indépendantes toutes ~N(0,1).

Distribution normale quelconque N(µ,s²)

Somme des carrés des écarts

Soit X une variable normale quelconque :

 X~N(µ,s²)

Rappelons que le changement de variable :

X ' = (X - µ)/s

permet de transformer tout variable normale X en une variable normale standard X '~N(0,1).

Donc si X~N(µ,s²), la somme des carrés des observations standardisées d'un échantillon de taille n est distribuée comme n.

Variance

En fait, le praticien est plutôt intéressé par la distribution de la moyenne des carrés des écarts (variance) plutôt que par leur somme. Posons :

S² = 1/n.Si(xi - µ

Un simple changement de variable :

Moyenne = Somme / n

conduit immédiatement au résultat :

nS²/s² ~ n

Estimation de la moyenne

Jusqu'ici, nous avons supposé la moyenne µ de la distribution connue. En pratique, c'est rarement le cas, et on est donc amené, dans l'expression ci-dessus, à remplacer la moyenne vraie µ par sa valeur  estimée à partir de l'échantillon :

= 1/n.Sixi

Mais  est une variable aléatoire, et il n'y a alors plus de raison de penser que la grandeur nS²/s² "modifiée" suive une distribution .

Distribution de la variance estimée

Nous arrivons enfin à la question qui intéresse le praticien : "Quelle est la distribution de la variance estimée de la distribution normale ?".

Résultat fondamental

Posons :

s² = 1/(n - 1).Si(xi -

qui est la variance "corrigée" de l'échantillon, estimateur sans biais de la variance de la distribution.

Nous montrerons que :


(n - 1)s²/s² ~n-1

 

 

Ainsi il apparaît que le remplacement de la moyenne de la distribution par la moyenne empirique ne modifie pas la nature de la distribution de la variance de l'échantillon (qui reste ), mais réduit simplement d'une unité le nombre de degrés de liberté de celle-ci.

 

Ce résultat est fondamental.


Par contre,  le remplacement de la variance de la distribution par la variance empirique a un effet plus profond sur la distribution de la moyenne empirique standardisée, qui passe alors d'une distribution normale standard à une distribution t (voir ici), et change donc de nature.

Perte d'un degré de liberté

Le passage de "n" à "n - 1" s'appelle "la perte d'un degré de liberté". Il s'agit d'un phénomène très général que l'on retrouvera dans de nombreuses circonstances impliquant des distributions , t de Student, ou F de Fisher.

Animation

Vous trouverez ici une animation interactive illustrant la distribution du Chi-2. Elle permet de comparer les distributions de la variance d'un échantillon selon que la moyenne de la distribution est connue ou bien estimée.

Indépendance de la moyenne et de la variance empiriques

La démontration du résultat ci-dessus fera apparaître une propriété très importante de la distribution normale :

 

La moyenne  et la variance s² empiriques sont des v.a. indépendantes

 

 

Cette propriété est caractéristique de la distribution normale :  une distribution dont les moyenne et variance empiriques sont indépendantes est obligatoirement normale (difficile).

Importance de la distribution du

Le test du Chi-2 "de base"

Une fois identifiée la distribution de la variance estimée d'une distribution normale, il devient possible de concevoir des tests portant sur la valeur vraie de cette variance, comme par exemple tester l'hypothese H0 : s² = s0²  pour une valeur donnée s0².

-----

Mais l'importance de la distribution du Chi-2 dépasse ce seul problème car plusieurs statistiques importantes suivent approximativement une distribution  pour des échantillons de grande taille.

Ceci permet en particulier de concevoir les tests suivants, très importants en pratique.

Test du Chi-2 d'adéquation

Un problème fréquent en Statistique est d'évaluer la plausibilité de l'assertion : "Cet échantillon a été généré par cette distribution". Il est possible de tester cette hypothèse grâce à une statistique suivant approximativement une distribution .

Test du Chi-2 d'identité

Dans le même ordre d'idées, il est possible de tester la plausibilité de l'assertion : "Ces deux échantillons ont été tirés de deux distributions identiques"  grâce à une statistique suivant approximativement une distribution .

Test du Chi-2 d'indépendance

Etant données deux variables X et Y discrètes et de domaines finis, il est possible de tester l'hypothèse "X et Y sont indépendantes"  grâce à une statistique suivant approximativement une distribution .

____________________________________________________________

 

 

Tutoriel 1


Nous décrivons ici les propriétés élémentaires de la distribution du Chi-2. Nous avons là un parfait exemple de l'efficacité de la fonction génératrice des moments, sans laquelle le calcul de la fonction de densité de probabilité de la distribution serait difficile.

Nous utiliserons largement le fait que la distribution du Chi-2 est un cas particulier de distribution Gamma.

-----

Calculer la forme explicite (et compliquée) de la distribution du Chi-2 n'est pas aussi inutile qu'il peut paraître. Par exemple, cette forme nous sera utile pour identifier une statistique exhaustive de la variance d'une distribution normale (voir ici).

 

 

 

 

PROPRIETES ELEMENTAIRES

DE LA DISTRIBUTION DU CHI-2

Densité de probabilité de 1

Fonction de répartition de 1

Densité de probabilité de 1

Fonction génératrice des moments de la distribution1

Fonction génératrice des moments de la distributionn

Densité de probabilité de n

Moments, mode

Moyenne

Variance

Mode

Cas particuliers

n = 2 : exponentielle

n = 1 : asymptote verticale

Additivité

TUTORIAL

_____________________________________________________

 

Tutoriel 2

 

Nous démontrons ici la relation fondamentale:

(n - 1)s²/s² ~ n-1

qui exprime le fait que l'obligation d'estimer la moyenne de la distribution par la moyenne empirique :

    * Préserve la nature en "" de la distribution de la variance empirique,

    * Mais fait perdre un degré de liberté à cette distribution.

 

Dans un premier temps, nous décrivons le cas n = 2 (l'échantillon n'a que 2 observations), ce qui permet de donner une représentation graphique de la démonstration et du résultat.

Puis nous généralisons le résultat obtenu à un échantillon de taille n quelconque. Nous adopterons une démonstration "élémentaire" ne faisant pas appel à l'Algèbre Linéaire.

-----

La démontration apportera de plus un résultat nouveau et très important :

Pour la distribution normale, la moyenne empirique et la variance empirique sont des v.a. indépendantes.

 

 

DISTRIBUTION DE LA VARIANCE EMPIRIQUE

DE LA DISTRIBUTION NORMALE

Cas n = 2

Nombre quelconque de degrés de liberté

Réécriture de la variance

Changement de repère

Distribution de la variance empirique

Indépendance de la moyenne et de la variance

TUTORIAL

 

 

 

 

* Formes de la distribution (nombre de degrés de     liberté ajustable).

* Histogrammes progressifs des distributions de la     variance ou de la variance estimée.

 

 

 

 

 

 

 

 

________________________________________________________________

 

Voir aussi:

Distribution normale

Distribution de la variance (distribution mère Normale)

Distribution de l'écart-type (distribution mère Normale)

1 comme exemple de carré d'une v.a.

Tests du Chi-2

Distribution Gamma

Téléchargez ce Glossaire