Chi-2

Se prononce "Qui-deux".

 

Ce terme étrange se rencontre partout en Modélisation de Données. Il recouvre plusieurs réalités, étroitement liées, mais différentes. Nous donnons ici de brèves descriptions :

    1) De la Distribution de Probabilité du Chi-2.

    2) Des différents "tests du Chi-2".

    3) Du Chi-2 utilisé dans les Arbres de Décision dits "CHAID".

    4) De la distance du Chi-2.

 

 

 

    1) La distribution de probabilité du Chi-2

            Avant toute chose, "Chi-2" désigne une des lois de probabilité les plus fondamentales. Un exemple typique de variable suivant une loi du Chi-2 est n fois la variance d'un échantillon de n points tirés d'une loi normale standard N(0, 1). Beaucoup de variables rencontrées en Modélisation de Données suivent une loi du Chi-2 (bien qu'il soit parfois difficile de le démontrer).

 

Pour plus d'informations sur la distribution du Chi-2 ainsi qu'une animation interactive illustrant cette distribution très importante, cliquer ici.

 

    2) Tests du Chi-2

            Certaines grandeurs liées aux variables nominales suivent approximativement un loi du Chi-2 pour des échantillons comportant de nombreuses observations. En conséquence, il est possible de construire un certain nombre de tests importants qui portent le nom générique de "Tests du Chi-2". Les plus importants sont :
 

        a) Le tests du Chi-2 d'adéquation (ou d'ajustement)

            Soit M une variable nominale à k modalités M1, ...Mk. Ces modalités apparaissent dans l'échantillon avec les fréquences f1, ..., fk. Par ailleurs, vous avez formulé une hypothèse H0  selon laquelle les vraies valeurs des probabilités derrière ces fréquences observées sont (p1, ..., pk). Cette hypothèse est-elle vraisemblable ? Le test du Chi-2 permet d'estimer la plausibilité de cette hypothèse, au vu des fréquences effectivement constatées.
 

Une variante de ce test permet de remplacer les valeurs imposées (p1, ..., pk) par leurs estimations lorsque la loi de référence dépend d'un certain nombre de paramètres inconnus, et qui doivent être estimés à partir de l'échantillon.

 

Une autre variante permet le même type de test sur des variables numériques (continues).

 

Ce test a le même objectif que le test de Kolmogorv.

 

Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'adéquation.

 

        b) Test d'identité de deux distributions

            Soient V1 et V2 deux variables nominales ayant le même nombre de k de modalités, et dont les fréquences observées sont n11, ..., n1k  et n21, ..., n2k. Ces deux jeux de fréquences sont-ils compatibles avec l'hypothèse H0 selon laquelle les deux jeux de probabilités ( p11, ..., p1k) et ( p21, ..., p2k) leur ayant donné naissance sont en fait identiques (p1i = p2i ) ?

 

Le test du Chi-2 d'identité de deux distributions estime la plausibilité de cette hypothèse. Il se généralise facilement à un  nombre quelconue de variables nominales.

 

Une variante permet le même type de test sur des variables numériques (continues). Il a alors le même objectif que le test de Mann-Whitney.

 

Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'identité.

 

        c) Test d'indépendance de deux variables nominales.

            Soient M et M' deux variables nominales (n'ayant pas nécessairement le même nombre de modalités, mais représentées dans le même échantillon). Il est possible de donner une définition rigoureuse de l'idée intuitive d'indépendance entre deux telles variables.

On formule alors l'hypothèse H0 selon laquelle M et M' sont effectivement indépendantes. Le "Test du Chi-2 d'indépendance" permet d'estimer la plausibilité de cette hypothèse, au vu des fréquences constatées de chaque paire de modalités (Mi, M'j ) dans l'échantillon.

 

Vous trouverez ci-dessous la Table des Matières du Tutoriel sur le Test du Chi-2 d'indépendance.

 

 

    3) Arbres de Decision "CHAID"

            "CHAID" est l'acronyme de "CHi-square Automatic Interaction Detection".

            Les Arbres de Décision sont des modèles prédictifs qui doivent décider de façon récurrente quelle est la variable nominale indépendante la plus "couplée" à la variable dépendante Y pour un certain sous-échantillon de l'échantillon complet. Il existe plusieurs façons de mesurer l'intensité de ce couplage. Quand la variable dépendante est nominale (classification), une façon consiste à soumettre à des tests d'indépendance toutes les paires (M(i), Y), et à retenir la variable M(j), qui a conduit à la plus faible p-value.


Les Arbres de Décision qui utilisent ce type de choix s'appellent des Arbres "CHAID".

 

 

    4) La distance du Chi-2

            Beaucoup de modèles sont basés sur la notion de "distance" entre points d'un certain espace (p. ex.,  K-Premiers Voisins, Classification Ascendante Hiérarchique, Analyse en Composantes Principales...). L'intuition et l'habitude font utiliser par défaut la distance euclidienne habituelle. Il existe pourtant des situations pour lesquelles la distance euclidienne n'est pas la plus appropriée. Par exemple, la "Distance de Mahalanobis"  est naturelle et utile en Analyse Discriminante.

 

    * L'Analyse des Correspondances construit un espace dans lequel la distance "naturelle" n'est pas la distance euclidienne, mais plutôt la distance dite "du Chi-2". Ce nom vient du fait que l'expression mathématique définissant cette distance est identique à celle rencontrée dans l'élaboration des "Tests du Chi-2".

 

    * On peut définir la "distance" entre deux distributions multinomiales par une expression de type "Chi-2". Deux distributions ayant une "Distance du Chi-2" égale à "0" sont identiques. Lorsque les deux distributions deviennent franchement différentes l'une de l'autre, leur distance du Chi-2 augmente. 

_______________________________________________

 LA DISTRIBUTION DU CHI-2

VOIR ICI...........

___________________________________

 

Ces Tutoriels n'ont pas encore été traduits en français. Nous vous prions de nous excuser pour cette gêne.
Une fois dans la zone des Tutoriels, vous pourrez librement accéder aux Tutoriels en français.

 

 

 

Tutorial 1

 

A common endeavor in Statistics is testing a hypothesis about the nature of the probability distribution that generated the sample at hand. This hypothesis is usually formulated not from statistical considerations, but rather from expertise. For example, one may wonder how likely it is that the sample was generated by a given candidate normal distribution, whose mean and variance were calculated by some theory in physics.

In other words, the question is to assess the quality of the fit between the candidate distribution and the sample (hence the expression "goodness-of-fit").

-----

One of the most important goodness-of-fit tests is the Chi-square test, that we now describe.

 

 

THE BASIC "GOODNESS-OF-FIT" CHI-SQUARE TEST

What are we testing ?

An example

General formulation

The binomial case

The binomial distribution

Approximate Chi-square

A step towards the general case

The general multinomial case

Each of the modalities follows a binomial distribution

Generalization of the binomial case

The test for the multinomial case

Influence of sample size

Unknown parameters in the reference distribution

An academic example

Estimating the parameters

Degrees of freedom

More realistic examples

Testing a continuous distribution

Adequation of a distribution to a sample. Likelihood.

Blocks and multinomial distribution

How many blocks ?

Estimating parameters

Influence of sample size

TUTORIAL

_____________________________________________________

 

Tutorial 2

 

The problem is now to decide whether two independent samples were drawn from identical distributions (without specifying the nature of these distributions). This assumption is considered likely if the two samples :

-----

We now describe this identity Chi-square test.

 

 

THE CHI-SQUARE TEST OF IDENTITY

The problem

The identity Chi-square test

Adding the Z  statistics

Estimating the probabilities

Generalization to p variables

Adding the Z  statistics

Estimating the probabilities

TUTORIAL

____________________________________

 

 

Tutorial 3

 

This third test is concerned about whether two categorical variables are independent. If they are, the contingency table describing the sample should not depart appreciably from a certain canonical structure. The departure of the contengency table from this canonical structure is measured by a statistic that is approximately Chi-square distributed for large samples.

 

 

THE CHI-SQUARE TEST OF INDEPENDENCE

The problem

The concept of independence

Contingency tables

Expected values

The test

The H0 hypothesis

The general idea

Estimating the probabilities

The Z ² statistic

Phi-square

Number of estimated parameters

The distribution of Z ²

Largest value

An upper bound for Z ²

When is the upper bound reached ?

Alternate "coefficients"

Contributions to Z ²

The special case of 2x2 tables

TUTORIAL

_________________________________________________________________