|
Animation interactive |
Chi-2 (Distribution du)
La moyenne d'un échantillon de taille n issu d'une distribution normale standard N(0,1) suit la distribution N(0,1/n). Qu'en est-il de la distribution de la variance de cet échantillon ?
La variance a été définie dans le but de décrire la dispersion des observations d'un échantillon autour de la moyenne de la distribution. Il s'est avéré que la moyenne des carrés des écarts des observations de l'échantillon à la moyenne de la distribution a de bonnes propriétés mathématiques qui justifient a posteriori la définition de la variance.
C'est donc tout naturellement que l'on est amené à s'intéresser, dans le cas de la distribution N(0,1), à la distribution de la somme des carrés des écarts des observations de l'échantillon à la moyenne 0, donc, en fait, à la distribution de la somme des carrés des valeurs de ces observations.
La raison pour laquelle nous nous intéressons à la somme de ces carrés plutôt
qu'à leur moyenne est expliquée dans le Tutoriel
ci-dessous, voir "Additivité".
Donc, par définition, la distribution du Chi-2
(notée
)
est celle de la somme des carrés des observations issues de la distribution
N(0,1).
Plus précisément, et plus formellement :
|
(X1² + X2²
+...+ Xn²) ~ |
Il n'y a donc pas une distribution du
,
mais une famille de distributions indexée par le paramètre entier n.
Ce paramètre est appelé "nombre de degrés de liberté" de la distribution.
(On retrouve ce même terme dans d'autres familles de distributions,
comme les distributions t de Student ou
F de Fisher). La distribution "Chi-2
à n degrés de liberté" est donc définie comme celle de la somme
des carrés de n variables indépendantes toutes ~N(0,1).
Soit X une variable normale quelconque :
X~N(µ,s²)
Rappelons que le changement de variable :
X ' = (X - µ)/s
permet de transformer tout variable normale X en une variable normale standard X '~N(0,1).
Donc si X~N(µ,s²),
la somme des carrés des observations standardisées d'un échantillon
de taille n est distribuée
comme
n.
En fait, le praticien est plutôt intéressé par la distribution de la moyenne des carrés des écarts (variance) plutôt que par leur somme. Posons :
S² = 1/n.Si(xi - µ)²
Un simple changement de variable :
Moyenne = Somme / n
conduit immédiatement au résultat :
nS²/s² ~
n
Jusqu'ici, nous avons supposé la moyenne µ de
la distribution connue. En pratique, c'est rarement le cas, et on est donc amené,
dans l'expression ci-dessus, à remplacer la moyenne vraie µ par
sa valeur
estimée à partir de l'échantillon :
= 1/n.Sixi
Mais
est
une variable aléatoire, et il n'y a alors plus de raison de penser que la grandeur
nS²/s² "modifiée" suive une distribution
.
Nous arrivons enfin à la question qui intéresse le praticien : "Quelle est la distribution de la variance estimée de la distribution normale ?".
Posons :
s² = 1/(n - 1).Si(xi -
)²
qui est la variance "corrigée" de l'échantillon, estimateur sans biais de la variance de la distribution.
Nous montrerons que :
|
(n - 1)s²/s²
~ |
Ainsi il apparaît que le remplacement de la moyenne de
la distribution par la moyenne empirique ne modifie pas la
nature de la distribution de la variance de l'échantillon (qui reste
),
mais réduit simplement d'une unité le nombre de degrés de liberté de celle-ci.
Ce résultat est fondamental.
Par contre, le remplacement de la variance de
la distribution par la variance empirique a un effet plus profond sur la
distribution de la moyenne empirique standardisée, qui passe alors d'une
distribution normale standard à une distribution t (voir ici),
et change donc de nature.
Le passage de "n" à "n
- 1" s'appelle "la perte d'un degré de liberté".
Il s'agit d'un phénomène très général que l'on retrouvera dans de nombreuses
circonstances impliquant des distributions
,
t de Student, ou F de Fisher.
Vous trouverez ici une animation interactive illustrant la distribution du Chi-2. Elle permet de comparer les distributions de la variance d'un échantillon selon que la moyenne de la distribution est connue ou bien estimée.
La démontration du résultat ci-dessus fera apparaître une propriété très importante de la distribution normale :
|
La moyenne |
Cette propriété est caractéristique de la distribution normale : une distribution dont les moyenne et variance empiriques sont indépendantes est obligatoirement normale (difficile).
Une fois identifiée la distribution de la variance estimée d'une distribution normale, il devient possible de concevoir des tests portant sur la valeur vraie de cette variance, comme par exemple tester l'hypothese H0 : s² = s0² pour une valeur donnée s0².
-----
Mais l'importance de la distribution du Chi-2 dépasse
ce seul problème car plusieurs statistiques importantes suivent approximativement
une distribution
pour
des échantillons de grande taille.
Ceci permet en particulier de concevoir les tests suivants, très importants en pratique.
Un problème fréquent en Statistique est d'évaluer
la plausibilité de l'assertion : "Cet échantillon a été généré par cette
distribution". Il est possible de tester cette hypothèse grâce à une statistique
suivant approximativement une distribution
.
Dans le même ordre d'idées, il est possible de tester
la plausibilité de l'assertion : "Ces deux échantillons ont été tirés de
deux distributions identiques" grâce à une statistique suivant approximativement
une distribution
.
Etant données deux variables X et Y discrètes
et de domaines finis, il est possible de tester l'hypothèse "X et
Y sont indépendantes" grâce à une statistique suivant approximativement
une distribution
.
____________________________________________________________
|
Tutoriel 1 |
Nous décrivons ici les propriétés élémentaires
de la distribution du Chi-2. Nous avons là un parfait exemple de l'efficacité de
la fonction génératrice des moments,
sans laquelle le calcul de la fonction de densité de probabilité de la
distribution serait difficile.
Nous utiliserons largement le fait que la distribution du Chi-2 est un cas particulier de distribution Gamma.
-----
Calculer la forme explicite (et compliquée) de la distribution du Chi-2 n'est pas aussi inutile qu'il peut paraître. Par exemple, cette forme nous sera utile pour identifier une statistique exhaustive de la variance d'une distribution normale (voir ici).
PROPRIETES ELEMENTAIRES
DE LA DISTRIBUTION DU CHI-2
|
Densité de probabilité
de Fonction de répartition de Densité de probabilité de Fonction génératrice des moments de la distribution Fonction génératrice des moments de la distribution Densité de probabilité
de Moments, mode Moyenne Variance Mode Cas particuliers n = 2 : exponentielle n = 1 : asymptote verticale Additivité |
||
|
TUTORIAL |
||
_____________________________________________________
|
Tutoriel 2 |
Nous démontrons ici la relation fondamentale:
(n - 1)s²/s² ~
n-1
qui exprime le fait que l'obligation d'estimer la moyenne de la distribution par la moyenne empirique :
* Préserve la nature
en "
" de
la distribution de la variance empirique,
* Mais fait perdre un degré de liberté à cette distribution.
Dans un premier temps, nous décrivons le cas n = 2 (l'échantillon n'a que 2 observations), ce qui permet de donner une représentation graphique de la démonstration et du résultat.
Puis nous généralisons le résultat obtenu à un échantillon de taille n quelconque. Nous adopterons une démonstration "élémentaire" ne faisant pas appel à l'Algèbre Linéaire.
-----
La démontration apportera de plus un résultat nouveau et très important :
Pour la distribution normale, la moyenne empirique et la variance empirique sont des v.a. indépendantes.
DISTRIBUTION DE LA VARIANCE EMPIRIQUE
DE LA DISTRIBUTION NORMALE
|
Cas n = 2 Nombre quelconque de degrés de liberté Réécriture de la variance Changement de repère Distribution de la variance empirique Indépendance de la moyenne et de la variance |
||
|
TUTORIAL |
||
|
|
|
|
* Formes de la distribution (nombre de degrés de liberté ajustable). * Histogrammes progressifs des distributions de la variance ou de la variance estimée. |
|
________________________________________________________________
Voir aussi:
|
Distribution normale |
|
|
Distribution de la variance (distribution mère Normale) |
|
|
Distribution de l'écart-type (distribution mère Normale) |
|
|
|
|
|
Tests du Chi-2 |
|
|
Distribution Gamma |