Chi-2  (Tests du)

Le test du Chi-2 de base

Dans l'illustration ci-dessous :

    * Les barres rouges représentent les probabilités respectives des k modalités d'une certaine distribution multinomiale Mult1(n, p1, p2,  ..., pk ).

    * Les barres bleues représentent les fréquences observées (f1, f2,  ..., fk ) dans un échantillon de n observations tirées d'une distribution multinomiale inconnue Mult2(p'1p'2, ..., p'k ). Si on désigne par ni le nombre d'observations de la modalité i, on a donc fi = ni /n.

 

IMAGE

 

L'analyste a des raisons de penser que les deux distributions Mult1 et Mult2 pourraient être identiques. Il souhaite donc déterminer s'il est plausible que l'échantillon observé soit effectivement issu de la distribution Mult1().

Il va donc tester l'hypothèse nulle :

    * H0 :  p1 = p'1,   p2 = p'2, ..., pk = p'k

contre l'hypothèse alternative :

    * H1 : pour au moins un i, pi  p'i 

Pour cela, il va utiliser une statistique dont la valeur :

    * Est nulle si les fréquences observées sont exactement égales aux probabilités p1, p2,  ..., pk.

    * Est d'autant plus grande que les fréquences observées s'écartent des probabilités p1, p2,  ..., pk,

    * Et dont la distribution de probabilité est connue si l'hypothèse nulle est vraie.

-----

La statistique la plus utilisée est :

 

est qui est connue sous le nom de "Chi2 de Pearson".

Sous l'hypothèse H0, le nombre d'observations dans la modalité i suit une distribution binomiale B(n, pi) d'espérance npi. Chaque terme de la somme est donc :

    * Le carré de la différence entre les nombre d'observations effectivement observé pour la modalité i, et le nombre attendu d'observations si l'hypothèse nulle est vraie.

    * Normalisé par le nombre attendu d'observations pour cette modalité.

 -----

En fait, la distribution exacte de cette statistique n'est pas calculable, mais on montre que pour de grandes valeurs de n, cette distribution est presque une distribution du Chi-2 à (k - 1) degrés de liberté. La démonstration de ce résultat est difficile dns le cas général, et dépasse le cadre de ce Glossaire, mais nous la donnerons dans le cas particulier k = 2, c'est à dire lorsque l'on considère des distributions multinomiales à deux modalités.

-----

Trois tests importants se ramènent simplement au test du Chi-2 de base.

Test du Chi-2 d'adéquation ("Goodness-of-fit")

L'illlustration ci-dessous représente :

    * Un échantillon issu d'une distribution inconnue.

    * Et une distribution de probabilité p(x).

 

IMAGE

 

La question est "Est-il plausible que cet échantillon ait été généré par la distribution de probabilité p(x)?".

Cette question relève de la famille de tests dits "tests d'adéquation" ("Goodness-of-fit"), dont l'hypothèse nulle est :

    * H0 : L'échantillon considéré est issu de la distribution de probabilité considérée.


La distribution peut être continue ou discrète.

-----

Un des tests d'adéquation les plus utilisés est le test du "Chi2 d'adéquation". Nous montrerons en effet qu'il est possible de ramener la question précédente à un test semblable à celui du Chi2 de base tel qu'exposé ci-dessus.

Test du Chi2 d'identité

L'illustration ci-dessous représente deux échantillons issus de deux distributions de probabilité inconnues. La question est de savoir s'il est plausible d'affirmer que ces deux échantillons sont issus de la même distribution (ou de deux distributions identiques). On ne demande pas de préciser la nature des distributions.

L'hypothèse nulle est donc :

    * H0 : les deux échantillon sont issus de la même distribution (ou de deux distributions identiques).


La distribution peut être continue ou discrète.

-----

Ce type de question relève des tests dits "d'identité", dont un des plus utilisés est le "test du Chi2 d'identité".  Nous montrerons en effet qu'il est possible de ramener la question précédente à un test semblable à celui du Chi2 de base tel qu'exposé ci-dessus.

Test du Chi2 d'indépendance

Soient X1 et X2 deux variables nominales (n'ayant pas nécessairement les mêmes nombres de modalités). La distribution conjointe de la paire {X1, X2} n'est connue que par le biais d'un échantillon de taille n, donc de n tirages de paires de valeurs {m1i, m2j}, où m1i est une modalité de X1, et m2j est une modalité de X2.

La question est de savoir s'il est plausible que les deux variables X1 et X2 soient indépendantes.

L'hypothèse nulle est donc :

    * H0 : "X1 et X2 sont indépendantes".

-----

Nous montrerons qu'il est possible d'élaborer un test qui se ramène au test du Chi2 de base tel qu'exposé ci-dessus.

Paramètres estimés et nombre de degrés de liberté

Nous avons mentionné que la distribution du Chi-2 de Pearson était une distribution du Chi2 à (k - 1) degrés de liberté, alors que l'expression de Q comporte les k effectifs ni.

 

 

 

 

 

 

 

 

Tutoriel 1

 

 

 

TITRE

 

TUTORIEL

____________________________________________________________

 

Voir aussi:

 

 

 

 

 

Téléchargez ce Glossaire