Animation interactive

Chi-2  (Distribution du)

Définition de la distribution du Chi-2

La moyenne d'un échantillon de taille n issu d'une distribution normale standard N(0,1) suit la distribution N(0,1/n). Qu'en est-il de la distribution de la variance de cet échantillon ?

La variance a été définie dans le but de décrire la dispersion des observations d'un échantillon autour de la moyenne de la distribution. Il s'est avéré que la moyenne des carrés des écarts des observations de l'échantillon à la moyenne de la distribution a de bonnes propriétés mathématiques qui justifient a posteriori la définition de la variance.

C'est donc tout naturellement que l'on est amené à s'intéresser, dans le cas de la distribution N(0,1), à la distribution de la somme des carrés des écarts des observations de l'échantillon à la moyenne 0, donc, en fait, à la distribution de la somme des carrés des valeurs de ces observations.


La raison pour laquelle nous nous intéressons à la somme de ces carrés plutôt qu'à leur moyenne est expliquée dans le Tutoriel ci-dessous, voir "Additivité".

Donc, par définition, la distribution du Chi-2 (notée χ2) est celle de la somme des carrés des observations issues de la distribution N(0,1).

Plus précisément, et plus formellement :

 

(X1² + X2² +...+ Xn²) ~ χ2n

 

Degrés de liberté

Il n'y a donc pas une distribution du χ2, mais une famille de distributions indexée par le paramètre entier n. Ce paramètre est appelé "nombre de degrés de liberté" de la distribution. (On retrouve ce même terme dans d'autres familles de distributions, comme les distributions t de Student ou F de Fisher). La distribution "Chi-2 à n degrés de liberté" est donc définie comme celle de la somme des carrés de n variables indépendantes toutes ~ N(0,1).

Distribution normale quelconque

Somme des carrés des écarts

Soit X une variable normale quelconque :

 X ~ N(µ, σ²)

Rappelons que le changement de variable :

X ' = (X - µ)/σ

permet de transformer tout variable normale X en une variable normale standard X '~ N(0,1).

Donc si X ~ N(µ, σ²), la somme des carrés des observations standardisées d'un échantillon de taille n est distribuée comme χ2n.

Variance

En fait, le praticien est plutôt intéressé par la distribution de la moyenne des carrés des écarts (variance) plutôt que par leur somme. Posons :

s² = 1/n.Σi(Xi - µ

On a alors :

ns²/σ² = Σi [(Xi - µ)/σ]²

et donc

ns²/σ² ~ χ2n

comme somme des carrés de n variables N(0, 1) indépendantes.

Estimation de la moyenne

Jusqu'ici, nous avons supposé la moyenne µ de la distribution connue. En pratique, c'est rarement le cas, et on est donc amené, dans l'expression ci-dessus, à remplacer la moyenne vraie µ par sa valeur  estimée à partir de l'échantillon :

= 1/n.Σi xi

Mais, alors que µ était constante,  est la réalisation de la variable aléatoire :

= 1/n.Σi Xi

et il n'y a alors plus de raison de penser que la grandeur ns²/σ² "modifiée" suive une distribution du χ2.

Distribution de la variance empirique

Nous arrivons enfin à la question qui intéresse le praticien : "Quelle est la distribution de la variance de l'échantillon (variance empirique) de la distribution normale ?".

Résultat fondamental

Posons :

S ² = 1/(n - 1).Σi (Xi -

qui est la variance "corrigée" de l'échantillon, estimateur sans biais de la variance de la distribution.

Nous montrerons que :

(n - 1)S ²/σ² ~ χ2n - 1

 

 

Ainsi il apparaît que le remplacement de la moyenne de la distribution par la moyenne empirique ne modifie pas la nature de la distribution de la variance de l'échantillon (qui reste χ2), mais réduit simplement d'une unité le nombre de degrés de liberté de celle-ci.

 

Ce résultat est fondamental.


Par contre,  le remplacement de la variance de la distribution par la variance empirique a un effet plus profond sur la distribution de la moyenne empirique standardisée, qui passe alors d'une distribution normale standard à une distribution t (voir ici), et change donc de nature.

Perte d'un degré de liberté

Le passage de "n" à "n - 1" s'appelle "la perte d'un degré de liberté". Il s'agit d'un phénomène très général dont l'origine est le remplacement d'un paramètre inconnu par sa valeur estimée, et que l'on retrouvera dans de nombreuses circonstances impliquant des distributions χ2, t de Student, ou F de Fisher.

Indépendance de la moyenne et de la variance empiriques

La démonstration du résultat ci-dessus fera apparaître une propriété très importante de la distribution normale :

 

La moyenne  et la variance S ² empiriques sont des v.a. indépendantes

 


Ce résultat est également une simple conséquence du Théorème de Cochran.

 Cette propriété est caractéristique de la distribution normale :  une distribution dont les moyenne et variance empiriques sont indépendantes est obligatoirement normale (difficile et non démontré dans ce site).

Animation

Cette animation illustre la distribution du Chi-2.

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

Cadre supérieur

Ce cadre montre la distribution normale standard N(0, 1), ainsi qu'un échantillon tiré de cette distribution. Les marques -1 et +1 désignent les positions des écarts-type.

Le trait vertical bleu repère la moyenne de l'échantillon.

 

Cadre inférieur

Ce cadre montre distribution χ2n pour la valeur de n figurant sous la rubrique "Sample size". Rappelons que c'est la distribution de la somme des carrés des abscisses des points de l'échantillon.

  • Faites varier la taille de l'échantillon et observez le changement de la forme de la courbe χ2n.

             * Pour n > 2, les courbes ont toutes la même forme générale en cloche asymétrique (rappelons que la distribution du Chi-2 est une distribution Gamma particulière, voir ci-dessous).

Le mode est égal à n - 2.

            * Pour n = 2, la courbe est constamment décroissante depuis la valeur 0,5 (ordonnée à l'origine). C'est la distribution exponentielle de paramètre λ = 0,5.

            * Pour n = 1, l'axe vertical est une asymptote : la courbe tend vers l'infini lorsqu'on se rapproche de l'origine. La courbe n'est pas définie à l'origine. Bien que χ21 puisse prendre des valeurs arbitrairement grandes, l'aire comprise sous la courbe reste égale à 1.

χ21  est la distribution du carré d'une variable normale standard.

  • Cliquez maintenant sur le bouton "Est. mean" (c.à.d. "Moyenne empirique"). Deux courbes s'affichent:
    • En noir s'affiche toujours la distribution χ2n de la somme des carrés des abscisses des points de l'échantillon.
    • En rouge s'affiche la distribution χ2n-1 de la somme des carrés des écarts par rapport à la moyenne des observations (utilisée comme estimation de la moyenne de la distribution).
      Le maximum est plus haut et plus à gauche que le précédent. Ceci traduit le fait que la variance estimée est toujours plus petite que la "variance vraie" (ç.à.d. mesurée par rapport à l'origine, et non par rapport à la moyenne estimée). Cette circonstance favorise l'appartition de petites valeurs de la statistique χ2, et défavorise l'appartition de grandes valeurs.
      Notez que le nombre de degrés de libertés ("df", pour "degrees of freedom") dans la coin supérieur droit du cadre, est diminué d'une unité.
      _________________________
  • Cliquez maintenant sur le bouton "Go", et observez la construction progressive de l'histogramme des valeurs de ns² (ou de
    (n - 1)S²).

 

 

Propriétés de la distribution du Chi-2

Nous établirons les propriétés suivantes de la distribution du Chi-2.

Densité de probabilité

La fonction de densité de probabilité de la distribution du Chi-2 à n degrés de liberté est :

 

 

 

 

Γ est la fonction Gamma.

La distribution du Chi-2 apparaît donc comme un cas particulier de la distribution Gamma Γ(α, β) pour α = n/2 et β = 1/2.

Moyenne

La moyenne de la distribution du Chi-2 à n degrés de liberté est :

 

µ = n

Variance

 La variance de la distribution du Chi-2 à n degrés de liberté est :

 

σ² = 2n

 

Moments de tous ordres

 Le moment d'ordre p de la distribution du Chi-2 à n degrés de liberté est :

 

 

 

Ce résultat se déduit du résultat équivalent pour la distribution Gamma générale.

Mode

            * Pour n > 2, la distribution du Chi-2 a un mode unique en :

 

Mode = n - 2

 

L'écart entre la moyenne et le mode est donc égal à 2 quel que soit le nombre de degrés de liberté.

 

    * Pour n = 2, la distribution du Chi-2 est la distribution exponentielle (décroissante) dont l'ordonnée à l'origine est égale à 0,5.

 

    * Pour n = 1, la distribution du Chi-2 admet l'axe vertical comme asymptote, et n'a donc pas de mode.

Fonction génératrice des moments

La fonction génératrice des moments de la distribution du Chi-2 à n degrés de liberté est :

 

Mn(t) = (1 - 2t)-n / 2

 


résultat que nous établirons directement, et qui nous permetra de faire le lien entre distribution du Chi-2 et distribution Gamma.

Distribution du Chi-2 et tests

Tester la valeur d'une variance

Une fois identifiée la distribution de la variance estimée d'une distribution normale, il devient possible de concevoir des tests portant sur la valeur de la variance de la population.

Par exemple, pour tester l'hypothese H0 : σ² = σ0²  contre l'hypothèse alternative H1 : σ² ≠ σ0² au niveau de signification α pour un échantillon de taille n tiré d'une population normale, on comparera la valeur de la quantité (n - 1)S²/σ0² (la statistique du test) aux quantiles α /2 et (1 - α/2) de la distribution

χ2n - 1 (images supérieure et inférieure de l'illustration ci-dessous).

 

 

Comparaison de deux variances

La comparaison de deux variances est à peine plus compliquée. On dispose de deux échantillons de tailles respectives n1 et n2 issus de deux populations normales indépendantes dont on veut comparer les variances.

La statistique du test est alors :

F = S1² / S2²

dont la distribution, lorsque les variances des deux populations normales sont égales, est la distribution F de Fisher.

Ce point est repris plus en détail ici.

Formes quadratiques dans des variables normales multivariées

La Statistique rencontre souvent des formes quadratiques dans des variables normales multivariées, en particulier :

    * En Analyse de la Variance,

    * En Régression Linéaire Multiple.

Sous certaines conditions, que nous détaillons ici, ces formes quadratiques suivent des distributions du χ2.

La distribution du Chi-2 comme distribution asymptotique

L'importance de la distribution du Chi-2 s'étend au-delà des questions relatives à la distribution de la variance de la distribution normale. Deux importantes statistiques de test ont des distributions inconnues, mais qui convergent vers une distribution du χ2 lorsque la taille de l'échantillon tend vers l'infini (distribution asymptotique) :

    * La statistique du "Chi-2 de Pearson" (ou simplement "du Chi-2"), qui est la statistique à la base de tous les tests du Chi-2. Cette statistique est construite à partir de considérations sur la conception d'un test d'adéquation pour la distribution multinomiale. On montre que sa distribution asymptotique est une distribution du χ2.

    * La statistique dite du "G² de Wilks", qui joue exactement le même rôle que la statistique du Chi-2, mais qui est construite en appliquant au problème de la recherche d'un test d'adéquation pour la distribution multinomiale les directives standard de construction d'un Test du Rapport de Vraisemblance.

____________________________________________________________

 

 

 

Tutoriel 1


Dans ce Tutoriel, nous établissons les propriétés élémentaires de la distribution du Chi-2. En fait, celles-ci peuvent se déduire de celles de la distribution Gamma, dont la distribution du Chi-2 n'est qu'un cas particulier.

Il est néanmoins nécessaire de démontrer cette affirmation, ce qui représente la partie la plus importante du Tutoriel. Nous le faisons en calculant la fonction génératrice des moments (fgm) de la distribution du Chi-2 à partir de sa définition élémentaire. Nous reconnaîtrons dans cette fgm celle d'une distribution Gamma particulière et, en faisant appel à la propriété d'unicité de la fgm, nous en déduirons la fonction de densité de probabilité de la distribution du Chi-2, ainsi que toutes les propriétés qui en découlent.

-----

Calculer la forme explicite de la distribution du Chi-2 n'est pas aussi inutile qu'il peut paraître.

    * Elle est indispensable pour établir les quantiles de la distribution utilisés dans les tests.

    * Elle est parfois utile en elle-même. Par exemple, nous utiliserons cette forme pour identifier une statistique exhaustive de la variance d'une distribution normale (voir ici).

 

 

 

PROPRIETES ELEMENTAIRES

DE LA DISTRIBUTION DU CHI-2

Densité de probabilité de χ21

Fonction de répartition

Densité de probabilité

Fonction génératrice des moments de la distribution χ21

Fonction génératrice des moments de la distribution χ2n

Densité de probabilité de χ2n

Moments, mode

Moyenne

Variance

Mode

Cas particuliers

n = 2 : exponentielle

n = 1 : asymptote verticale

Additivité

TUTORIAL

________________________________________________________

 

 

 

Tutoriel 2

 

Nous démontrons ici la relation fondamentale:

(n - 1)S ²/σ² ~ χ2n - 1

qui exprime le fait que l'obligation d'estimer la moyenne de la distribution par la moyenne empirique :

    * Préserve la nature en "χ2" de la distribution de la variance empirique,

    * Mais fait perdre un degré de liberté à cette distribution.

 

Dans un premier temps, nous décrivons le cas n = 2 (l'échantillon n'a que 2 observations), ce qui permet de donner une représentation graphique de la démonstration et du résultat.

Puis nous généralisons le résultat obtenu à un échantillon de taille n quelconque. Nous adopterons une démonstration "élémentaire" ne faisant pas appel à l'Algèbre Linéaire.

-----

La démontration apportera de plus un résultat nouveau et très important :

Pour la distribution normale, la moyenne empirique et la variance empirique sont des v.a. indépendantes


Ce résultat est également :
   * Une conséquence immédiate du Théorème de Cochran.
   * Une conséquence immédiate du Théorème de Basu.

 

 

DISTRIBUTION DE LA VARIANCE EMPIRIQUE

DE LA DISTRIBUTION NORMALE

Cas n = 2

Nombre quelconque de degrés de liberté

Réécriture de la variance

Changement de repère

Distribution de la variance empirique

Indépendance de la moyenne et de la variance

Lien avec le Théorème de Cochran

TUTORIAL

  

___________________________________________________________

 

Voir aussi:

Distribution normale

Distribution de la variance (distribution mère Normale)

Distribution de l'écart-type (distribution mère Normale)

χ21 comme exemple de carré d'une v.a.

Tests du Chi-2

Distribution Gamma

Formes quadratiques

Théorème de Cochran

Téléchargez ce Glossaire