Se prononce "Qui-deux".
Ce terme étrange se rencontre partout en Modélisation de Données. Il recouvre plusieurs réalités, étroitement liées, mais différentes. Nous donnons ici de brèves descriptions :
1) De la Distribution de Probabilité du Chi-2.
2) Des différents "tests du Chi-2".
3) Du Chi-2 utilisé dans les Arbres de Décision dits "CHAID".
4) De la distance du Chi-2.
1) La distribution de probabilité du Chi-2
Avant toute chose, "Chi-2" désigne une des lois de probabilité les plus fondamentales. Un exemple typique de variable suivant une loi du Chi-2 est n fois la variance d'un échantillon de n points tirés d'une loi normale standard N(0, 1). Beaucoup de variables rencontrées en Modélisation de Données suivent une loi du Chi-2 (bien qu'il soit parfois difficile de le démontrer).
Pour plus d'informations sur la distribution du Chi-2 ainsi qu'une animation interactive illustrant cette distribution très importante, cliquer ici.
2) Tests du Chi-2
Certaines
grandeurs liées aux variables nominales suivent approximativement un loi du
Chi-2 pour des échantillons comportant de nombreuses observations. En conséquence,
il est possible de construire un certain nombre de tests importants qui portent
le nom générique de "Tests du Chi-2". Les plus importants sont :
a) Le tests du Chi-2 d'adéquation (ou d'ajustement)
Soit
M une variable nominale à k modalités M1,
...Mk. Ces modalités apparaissent dans l'échantillon avec
les fréquences f1,
..., fk. Par ailleurs, vous avez formulé une hypothèse H0
selon laquelle les vraies valeurs des probabilités derrière ces fréquences
observées sont (p1,
..., pk). Cette hypothèse est-elle vraisemblable ? Le test
du Chi-2 permet d'estimer la plausibilité de cette hypothèse,
au vu des fréquences effectivement constatées.
Une variante de ce test permet de remplacer les valeurs imposées (p1, ..., pk) par leurs estimations lorsque la loi de référence dépend d'un certain nombre de paramètres inconnus, et qui doivent être estimés à partir de l'échantillon.
Une autre variante permet le même type de test sur
des variables numériques (continues).
Ce test a le même objectif que le test de Kolmogorv.
Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'adéquation.
b) Test d'identité de deux distributions
Soient V1 et V2 deux variables nominales ayant le même nombre de k de modalités, et dont les fréquences observées sont n11, ..., n1k et n21, ..., n2k. Ces deux jeux de fréquences sont-ils compatibles avec l'hypothèse H0 selon laquelle les deux jeux de probabilités ( p11, ..., p1k) et ( p21, ..., p2k) leur ayant donné naissance sont en fait identiques (p1i = p2i ) ?
Le test du Chi-2 d'identité de deux distributions estime la plausibilité de cette hypothèse. Il se généralise facilement à un nombre quelconue de variables nominales.
Une variante permet le même type de test sur des variables numériques (continues). Il a alors le même objectif que le test de Mann-Whitney.
Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'identité.
c) Test d'indépendance de deux variables nominales.
Soient M et M' deux variables nominales (n'ayant pas nécessairement le même nombre de modalités, mais représentées dans le même échantillon). Il est possible de donner une définition rigoureuse de l'idée intuitive d'indépendance entre deux telles variables.
On formule alors l'hypothèse H0 selon laquelle M et M' sont effectivement indépendantes. Le "Test du Chi-2 d'indépendance" permet d'estimer la plausibilité de cette hypothèse, au vu des fréquences constatées de chaque paire de modalités (Mi, M'j ) dans l'échantillon.
Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'indépendance.
3) Arbres de Decision "CHAID"
"CHAID" est l'acronyme de "CHi-square Automatic Interaction Detection".
Les Arbres de Décision sont des modèles prédictifs qui doivent décider de façon récurrente quelle est la variable nominale indépendante la plus "couplée" à la variable dépendante Y pour un certain sous-échantillon de l'échantillon complet. Il existe plusieurs façons de mesurer l'intensité de ce couplage. Quand la variable dépendante est nominale (classification), une façon consiste à soumettre à des tests d'indépendance toutes les paires (M(i), Y), et à retenir la variable M(j), qui a conduit à la plus faible p-value.
Les Arbres de Décision qui utilisent ce type de
choix s'appellent des Arbres "CHAID".
4) La distance du Chi-2
Beaucoup de modèles sont basés sur la notion de "distance" entre points d'un certain espace (p. ex., K-Premiers Voisins, Classification Ascendante Hiérarchique, Analyse en Composantes Principales...). L'intuition et l'habitude font utiliser par défaut la distance euclidienne habituelle. Il existe pourtant des situations pour lesquelles la distance euclidienne n'est pas la plus appropriée. Par exemple, la "Distance de Mahalanobis" est naturelle et utile en Analyse Discriminante.
* L'Analyse des Correspondances construit un espace dans lequel la distance "naturelle" n'est pas la distance euclidienne, mais plutôt la distance dite "du Chi-2". Ce nom vient du fait que l'expression mathématique définissant cette distance est identique à celle rencontrée dans l'élaboration des "Tests du Chi-2".
* On peut définir la "distance" entre deux distributions multinomiales par une expression de type "Chi-2". Deux distributions ayant une "Distance du Chi-2" égale à "0" sont identiques. Lorsque les deux distributions deviennent franchement différentes l'une de l'autre, leur distance du Chi-2 augmente.
_______________________________________________
LA DISTRIBUTION DU CHI-2
___________________________________
|
Ces Tutoriels n'ont pas encore
été traduits en français. Nous vous prions de nous excuser pour cette gêne. |
|
Tutorial 1 |
A common endeavor in Statistics is testing a hypothesis about the nature of the probability distribution that generated the sample at hand. This hypothesis is usually formulated not from statistical considerations, but rather from expertise. For example, one may wonder how likely it is that the sample was generated by a given candidate normal distribution, whose mean and variance were calculated by some theory in physics.
In other words, the question is to assess the quality of the fit between the candidate distribution and the sample (hence the expression "goodness-of-fit").
-----
One of the most important goodness-of-fit tests is the Chi-square test, that we now describe.
THE BASIC "GOODNESS-OF-FIT" CHI-SQUARE TEST
|
What are we testing ? An example General formulation The binomial case The binomial distribution Approximate Chi-square A step towards the general case The general multinomial case Each of the modalities follows a binomial distribution Generalization of the binomial case The test for the multinomial case Influence of sample size Unknown parameters in the reference distribution An academic example Estimating the parameters Degrees of freedom More realistic examples Testing a continuous distribution Adequation of a distribution to a sample. Likelihood. Blocks and multinomial distribution How many blocks ? Estimating parameters Influence of sample size |
||
|
TUTORIAL |
||
_____________________________________________________
|
Tutorial 2 |
The problem is now to decide whether two independent samples were drawn from identical distributions (without specifying the nature of these distributions). This assumption is considered likely if the two samples :
-----
We now describe this identity Chi-square test.
THE
CHI-SQUARE TEST OF IDENTITY
|
The problem The identity Chi-square test Adding the Z statistics Estimating the probabilities Generalization to p variables Adding the Z statistics Estimating the probabilities |
||
|
TUTORIAL |
||
____________________________________
|
Tutorial 3 |
This third test is concerned about whether two categorical variables are independent. If they are, the contingency table describing the sample should not depart appreciably from a certain canonical structure. The departure of the contengency table from this canonical structure is measured by a statistic that is approximately Chi-square distributed for large samples.
THE CHI-SQUARE TEST OF INDEPENDENCE
|
The problem The concept of independence Contingency tables Expected values The test The H0 hypothesis The general idea Estimating the probabilities The Z ² statistic Phi-square Number of estimated parameters The distribution of Z ² Largest value An upper bound for Z ² When is the upper bound reached ? Alternate "coefficients" Contributions to Z ² The special case of 2x2 tables |
||
|
TUTORIAL |
||
_________________________________________________________________