Wilks  (Lambda de)

Le Lambda de Wilks est une statistique utilsée par l'Analyse Factorielle Discriminante dans le but de tester si plusieurs groupes d'observations multivariées ont des moyennes significativement différentes. Elle joue donc, dans le domaine multivarié, le même rôle que la statistique F de l'ANOVA univariée.

Définition du Lambda de Wilks

Le Lambda de Wilks est une mesure directe de la proportion de l'inertie des groupes qui n'est pas expliquée par la variable indépendante (qui identifie les groupes) dans un schéma de décomposition de la variance totale des observations. C'est donc le rapport :

    * De l'inertie intraclasses,

    * A l'inertie totale.


Notez la différence avec la statistique F d'ANOVA, qui est le rapport de la Somme des Carrés Factoriels (expliquée) et de la Somme des Carrés Résiduels (inexpliquée).

Le Lambda de Wilks est donc un nombre compris entre 0 et 1.

Si seule une faible fraction de l'inertie totale n'est pas expliquée par l'existence de groupes différents, alors les groupes sont bien séparés, et ont des moyennes sensiblement différentes. Donc:

    * Une faible valeur (proche de 0) du Lambda de Wilks est l'indication de groupes bien séparés.

 

 

    * Une forte valeur du Lambda de Wilks (proche de 1) est l'indication de groupes peu ou pas séparés (image inférieure de l'illustration ci-dessus).

Le test de Wilks

Le test de Wilks repose sur la distribution du Lambda de Wilks sous l'hypothèse nulle suivante :

    * Les variables sont normalement distribuées,

    * Les classes ont des matrices de covariance identiques,

    * Les classes ont des moyennes identiques.

-----

La distribution du Lambda de Wilks est très complexe. Heureusement, des transformations mathématiques simples le transforme en d'autres statistiques dont les distributions sont approximativement :

    * Une distribution en Chi-2,

    * ou une distribution F de Fisher.

Il est alors possible de tester l'hypothèse nulle selon laquelle les classes ont des moyennes identiques, sous réserve de s'être assuré que les deux autres conditions sont satisfaites.

-----

Les logiciels affichent parfois seulement la p-value du test plutôt que la valeur du Lambda de Wilks elle-même.

-----

Les logiciels affichent parfois la valeur des Lambda de Wilks relatifs à chacune des variables prises une par une. Ces valeurs peuvent alors être considérées comme des mesures des pouvoirs discriminants individuels des variables.

Test de Wilks et sélection de variables

Le Lambda de Wilks est également utilisé pour la sélection de variables en Analyse Discriminante. On sait construire une statistique approximativement distribuée selon la distribution F et qui est une fonction des Lambda de Wilks relatifs :

    * A un certain sous-ensemble de variables,

    * Et à ce même sous-ensemble augmenté d'une variable supplémentaire.

Un test F permet alors de déterminer laquelle des variables non encore incorporées au modèle augmente le plus la séparabilité des classes.

Conditions d'application du test de Wilks

Comme ANOVA, le test de Wilks exige le respect de conditions sévères :

    * Les variables doivent normalement distribuées.

    * Les classes dont sont issus les groupes d'observation doivent avoir des matrices de covariance identiques. Cette condition est en général testée par le test de Box.

Autres critères de séparabilité des classes

Il existe de nombreux autres critères conçus pour tester l'hypothèse nulle selon laquelle les classes ont des moyennes identiques. Mentionnons :

    * Le V de Rao.

    * La trace de Pillai.

    * Le gcr (greatest characteristic root) de Roy.

    * La trace de Lawley-Hotelling.

    ___________________________________________

 

Voir aussi:

ANOVA

Analyse Discriminante

V de Rao

Téléchargez ce Glossaire

 

 

 FIN DU GLOSSAIRE