Analyse Discriminante

Au sens propre du terme, "Analyse Discriminante" est une expression synonyme de "Classification supervisée" ou, pour respecter la terminologie française traditionnelle, de "Classement". Elle peut donc désigner globalement des techniques aussi diverses que la Régression Logistique, les Arbres de Décision, ou les Réseaux de Neurones.

Les deux analyses Discriminantes

L'usage contemporain restreint l'expression "Analyse Discriminante" aux deux techniques suivantes :

L'Analyse Factorielle Discriminante

Son objectif est d'identifier des directions sur lesquelles les projections des classes sont particulièrement bien séparées. Ces directions, dites "Axes factoriels discriminants", sont obtenues comme combinaisons linéaires des variables originales.
L''illustration ci-dessous représente deux classes C1 et C2 décrites par deux variables x1 et x2. Aucune de ces deux variables prise séparément ne peut séparer efficacement les deux classes en raison du chevauchement important des projections des classes sur les axes représentant ces variables.

 

 

Par contre, la nouvelle direction définie par x1 = x2 est parfaitement discriminante (image inférieure de l'illustration ci-desssus). Elle définit une direction dite "axe factoriel discriminant".

Dans une situation plus générale (nombre quelconque de classes et de variables), l'Analyse Factorielle Discriminante identifiera des axes permettant une séparation maximale des projectionsdes classes. Comme en Analyse en Composantes Principales, chaque paire d'axes définira un plan factoriel sur lequel les classes seront projetées : un examen visuel permettra alors d'étudier leurs formes et leurs positions relatives.

L'Analyse Discriminante Décisionnelle

L'Analyse Factorielle Discriminante ne permet pas de construire un classifieur permettant d'affecter une nouvelle observation à une classe.

L'Analyse Discriminante Décisionnelle crée, pour chaque classe, une "Fonction Discriminante". Toute nouvelle observation x est affectée à la classe dont la fonction discriminante prend la valeur la plus élevée.

Les fonctions discriminantes sont le plus souvent linéaires, et occasionellement quadratiques. Elles sont calculées à partir de l'hypothèse restrictive selon laquelle les classes ont des distributions normales. Quand cette hypothèse est convenablement vérifiée,  l'Analyse Discriminante permet non seulement de générer des règles d'affectation, mais de plus de calculer les probabilités, pour chaque observation, d'appartenance à chacune des classes (probabilités dites "a posteriori") par application du Théorème de Bayes.

Caractéristique de l'Analyse Discriminante

La caractéristique essentielle de l'Analyse Discriminante est de ne prendre en compte que les moments des deux premiers ordres des distributions de probabilité des classes : moyennes et matrices de covariances. Cette simplification permet d'obtenir des résultats mathématiques sous forme analytique, et même d'obtenir le meilleur classifieur possible (classifieur bayésien) lorsque les classes ont des distributions normales multivariées (ou "multinormales") qui sont, rappelons-le, entièrement définies par leurs moyennes et leur matrices de covariance. L'hypothèse de normalité permet d'estimer les densités à l'intérieur des classes (densités dites "conditionnelles") en estimant moyennes et matrices de covariance.

Dans la pratique, l'hypothèse de multinormalité est souvent approximativement satisfaite et, de plus, l'Analyse Discriminante s'avère être assez robuste vis-à-vis des écarts à cette hypothèse.

Généralisations de l'Analyse Discriminante

Malgré sa robustesse, l'Analyse Discriminante perd de son efficacité lorsque les distributions des classes s'écartent sensiblement de distributions multinormales. Il existe alors plusieurs recours :

Analyse Discriminante à noyaux

Cette technique consiste à projeter les observations dans un espace de grande dimension par une transformation non linéaire appropriée. Une Analyse Discriminante ordinaire est alors effectuée sur les données dans cet espace, le résultat étant par la suite "ramené" dans l'espace ordinaire. Les frontières linéaires dans l'espace de grande dimension, une fois ramenées dans l'espace des observations, peuvent alors prendre des formes arbitrairement complexes.

Régression Logistique

Nous verrons que dans le cas de deux classes multinormales ayant des matrices de covariance identiques, une certaine fonction (logit) des probabilités a posteriori des classes est linéaire dans les variables.

La Régression Logistique se débarasse de l'hypothèse de normalité des classes, et ne retient comme hypothèse que la linéarité de ce logit. Il n'y a donc plus d'hypothèse sur la nature des densités conditionnelles, mais seulement sur la nature de la relation entre ces densités.

Sous cette hypothèse (logit linéaire), il est alors possible de construire un modèle plus général que l'Analyse Discriminante et calculant lui aussi les probabilités a posteriori des classes (classification bayésienne). Ces probabilités sont alors calculées directement, sans passer par la phase intermédiaire d'estimation des densités conditionnelles, nécessaire à l'Analyse Discriminante, mais toujours un peu hasardeuse.

Un tel modèle, qui ne formule pas d'hypothèse sur la nature des densités conditionnelles, mais seulement sur leur relation, est dit semi-paramétrique.

Réseaux de Neurones

Les Réseaux de Neurones font un pas de plus dans la généralisation, en supprimant toute hypothèse sur les densités conditionnelles. En fait, l'architecture du Perceptron Multicouches peut être perçue comme une généralisation de celle de la Régression Logistique.

Cette généralisation ne vient pas gratuitement :

    * L'absence de tout hypothèse paramétrique fait disparaître les tests et intervalles de confiance dont bénéficient les modèles paramétriques.

    * Le nombre de paramètres à estimer est plus important que pour un Modèles Logistique, ce qui impose un plus grand nombre d'observations pour maintenir un niveau donné de crédibilité du modèle (voir compromis biais-variance).

_________________________________________________

 

 

Tutoriel 1

 

Ce premier Tutoriel traite des aspects géométriques de l'Analyse Discriminante. Le résultat essentiel est que, en ce qui concerne le problème de la séparation des classes, il n'est pas utile de prendre en compte les p dimensions de l'espace initial si p est supérieur à k, le nombre de classes. Nous identifierons un sous-espace de dimension (k - 1) dans lequel nous projeterons les observations. Ce sous-espace est sous-tendu par (k - 1) axes factoriels discriminants qui jouent vis-à-vis de la discriminantion des rôles similaires à ceux des axes factoriels en Analyse en Composantes Principale. Ainsi, le premier axe factoriel discriminant est celui sur lequel les projections des classes sont le "mieux séparées" au sens d'un critère que nous définirons.

L'analyste pourra examiner les projections des classes sur les plans définis par des paires d'axes factoriels discriminants.

 

 

ANALYSE FACTORIELLE DISCRIMINANTE

Les données

Centrage des données

Les barycentres des groupes

Décomposition de la variance

Covariance totale entre deux variables

Covariance intraclasses

Covariance interclasses

Relation matricielle de décomposition de la variance

Décomposition de la variance projetée

Le premier axe factoriel discriminant

"Meilleure" projection

Critère de séparation des barycentres

Critère de compacité des classes projetées

Incompatibilité des critères

Le critère final

Résolution du problème

La première valeur propre

Nombre d'axes discriminants

Remarques mathématiques

Valeurs propres réelles

Orthogonalité des vecteurs propres

Décorrélation des axes factoriels

Distance euclidienne et Distance de Mahalanobis

Cas particulier : deux classes

Droite discriminante de Fisher

Relation avec la Régression Linéaire Multiple

TUTORIEL

________________________________________________________________

 

Tutoriel 2

 

L'Analyse Factorielle Discriminante a pour objectif l'identification d'axes factoriels tels que les projections des classes sur les sous-espaces définis par ces axes soient aussi bien séparées que possible. En ce sens, c'est une technique d'Analyse de Données assez semblable à l'ACP (bien que plus complexe).

Nous passons maintenant à la phase dite "décisionnelle", dans laquelle nous allons construire un classifieur, c'est à dire un modèle prédictif permettant d'affecter une nouvelle observation à une des k classes ayant servi à construire le modèle. Dans le cas où les classes ont des densités multinormales, ce classifieur s'avèrera être optimal (classification bayésienne).

 

 

CLASSEMENTS GEOMETRIQUE ET PROBABILISTE

AFD et ACP sur les barycentres

Classement géométrique

Cas général

Cas particulier : deux classes

Faiblesse de l'affectation géométrique

Classement probabiliste

Théorème de Bayes

Estimation des densités de probabilité conditionnelles

Le modèle normal multidimensionnel

Cas général : fonctions discriminantes quadratiques

Egalité des matrices de covariance : fonctions discriminantes linéaires

Modèle linéaire ou modèle quadratique ?

Deux classes avec égalité des matrices de covariance

Fonctions discriminantes

Scores

Relation entre scores et probabilités a posteriori

TUTORIEL

__________________________________________________________________

 

Tutoriel 3

 

L'Analyse Discriminante est simple dans son principe, mais sa mise en pratique est délicate :

    * Il convient de vérifier que, alors que les classes ne sont décrites par leurs moments du premier et du deuxième ordre, elles sont effectivement suffisamment séparées pour que l'Analyse Discriminante ait une chance de fournir un bon résultat.

    * Ensuite, le recours au modèle linéaire exige l'égalité des matrices de covariances, hypothèse hasardeuse qu'il convient de vérifier.

    * L'aspect descriptif (facteurs discriminants) pose la question de la signification statistique des axes factoriels.

    * Enfin, comme pour toute technique de modélisation, se pose la question de la sélection des variables à incorporer dans le modèle.

 

 

VALIDATION D'UNE ANALYSE DISCRIMINANTE

Tests globaux de séparabilité des classes

ANOVA et Analyse Discriminante

Le test de Wilks

Le Lambda de Wilks

Le test de Wilks

Cas particuliers

Trois classes

Deux classes

Lambda de Wilks sur une seule variable

Le V de Rao

Corrélation canonique, pouvoir discriminant d'un vecteur propre

Identité des matrices de covariance

Test de Box

Test de Kullback

Combien d'axes ?  Tests de signification des valeurs propres

Test sur les dernières valeurs propres

Test sur les valeurs propres individuelles

Sélection de variables

Critères conduisant à un test

V de Rao

Lambda de Wilks

Critères ne conduisant pas à des tests

Distance de Mahalanobis

Corrélation canonique

Somme des variances inexpliquées

TUTORIEL

 

 ____________________________________________________________

 

Voir aussi:

Classification (supervisée)

Matrice de Covariance

Analyse en Composantes Principales

Inertie

Discriminant de Fisher

Régression Logistique

Téléchargez ce Glossaire