Analyse Discriminante
Au sens propre du terme, "Analyse Discriminante" est une expression synonyme de "Classification supervisée" ou, pour respecter la terminologie française traditionnelle, de "Classement". Elle peut donc désigner globalement des techniques aussi diverses que la Régression Logistique, les Arbres de Décision, ou les Réseaux de Neurones.
L'usage contemporain restreint l'expression "Analyse Discriminante" aux deux techniques suivantes :
Son
objectif est d'identifier des directions sur lesquelles les projections des
classes sont particulièrement bien séparées. Ces directions, dites "Axes factoriels
discriminants", sont obtenues comme combinaisons linéaires
des variables originales.
L''illustration ci-dessous représente deux classes
C1 et C2 décrites par deux variables x1
et x2. Aucune de ces deux variables prise séparément ne peut
séparer efficacement les
deux classes en raison du chevauchement important des projections des classes
sur les axes représentant ces variables.
Par contre, la nouvelle direction définie par x1 = x2 est parfaitement discriminante (image inférieure de l'illustration ci-desssus). Elle définit une direction dite "axe factoriel discriminant".
Dans une situation plus générale (nombre quelconque de classes et de variables), l'Analyse Factorielle Discriminante identifiera des axes permettant une séparation maximale des projectionsdes classes. Comme en Analyse en Composantes Principales, chaque paire d'axes définira un plan factoriel sur lequel les classes seront projetées : un examen visuel permettra alors d'étudier leurs formes et leurs positions relatives.
L'Analyse Factorielle Discriminante ne permet pas de construire un classifieur permettant d'affecter une nouvelle observation à une classe.
L'Analyse Discriminante Décisionnelle crée, pour chaque classe, une "Fonction Discriminante". Toute nouvelle observation x est affectée à la classe dont la fonction discriminante prend la valeur la plus élevée.
Les fonctions discriminantes sont le plus souvent linéaires, et occasionellement quadratiques. Elles sont calculées à partir de l'hypothèse restrictive selon laquelle les classes ont des distributions normales. Quand cette hypothèse est convenablement vérifiée, l'Analyse Discriminante permet non seulement de générer des règles d'affectation, mais de plus de calculer les probabilités, pour chaque observation, d'appartenance à chacune des classes (probabilités dites "a posteriori") par application du Théorème de Bayes.
La caractéristique essentielle de l'Analyse Discriminante est de ne prendre en compte que les moments des deux premiers ordres des distributions de probabilité des classes : moyennes et matrices de covariances. Cette simplification permet d'obtenir des résultats mathématiques sous forme analytique, et même d'obtenir le meilleur classifieur possible (classifieur bayésien) lorsque les classes ont des distributions normales multivariées (ou "multinormales") qui sont, rappelons-le, entièrement définies par leurs moyennes et leur matrices de covariance. L'hypothèse de normalité permet d'estimer les densités à l'intérieur des classes (densités dites "conditionnelles") en estimant moyennes et matrices de covariance.
Dans la pratique, l'hypothèse de multinormalité est souvent approximativement satisfaite et, de plus, l'Analyse Discriminante s'avère être assez robuste vis-à-vis des écarts à cette hypothèse.
Malgré sa robustesse, l'Analyse Discriminante perd de son efficacité lorsque les distributions des classes s'écartent sensiblement de distributions multinormales. Il existe alors plusieurs recours :
Cette technique consiste à projeter les observations dans un espace de grande dimension par une transformation non linéaire appropriée. Une Analyse Discriminante ordinaire est alors effectuée sur les données dans cet espace, le résultat étant par la suite "ramené" dans l'espace ordinaire. Les frontières linéaires dans l'espace de grande dimension, une fois ramenées dans l'espace des observations, peuvent alors prendre des formes arbitrairement complexes.
Nous verrons que dans le cas de deux classes multinormales ayant des matrices de covariance identiques, une certaine fonction (logit) des probabilités a posteriori des classes est linéaire dans les variables.
La Régression Logistique se débarasse de l'hypothèse de normalité des classes, et ne retient comme hypothèse que la linéarité de ce logit. Il n'y a donc plus d'hypothèse sur la nature des densités conditionnelles, mais seulement sur la nature de la relation entre ces densités.
Sous cette hypothèse (logit linéaire), il est alors possible de construire un modèle plus général que l'Analyse Discriminante et calculant lui aussi les probabilités a posteriori des classes (classification bayésienne). Ces probabilités sont alors calculées directement, sans passer par la phase intermédiaire d'estimation des densités conditionnelles, nécessaire à l'Analyse Discriminante, mais toujours un peu hasardeuse.
Un tel modèle, qui ne formule pas d'hypothèse sur la nature des densités conditionnelles, mais seulement sur leur relation, est dit semi-paramétrique.
Les Réseaux de Neurones font un pas de plus dans la généralisation, en supprimant toute hypothèse sur les densités conditionnelles. En fait, l'architecture du Perceptron Multicouches peut être perçue comme une généralisation de celle de la Régression Logistique.
Cette généralisation ne vient pas gratuitement :
* L'absence de tout hypothèse paramétrique fait disparaître les tests et intervalles de confiance dont bénéficient les modèles paramétriques.
* Le nombre de paramètres à estimer est plus important que pour un Modèles Logistique, ce qui impose un plus grand nombre d'observations pour maintenir un niveau donné de crédibilité du modèle (voir compromis biais-variance).
_________________________________________________
|
Tutoriel 1 |
Ce premier Tutoriel traite des aspects géométriques de l'Analyse Discriminante. Le résultat essentiel est que, en ce qui concerne le problème de la séparation des classes, il n'est pas utile de prendre en compte les p dimensions de l'espace initial si p est supérieur à k, le nombre de classes. Nous identifierons un sous-espace de dimension (k - 1) dans lequel nous projeterons les observations. Ce sous-espace est sous-tendu par (k - 1) axes factoriels discriminants qui jouent vis-à-vis de la discriminantion des rôles similaires à ceux des axes factoriels en Analyse en Composantes Principale. Ainsi, le premier axe factoriel discriminant est celui sur lequel les projections des classes sont le "mieux séparées" au sens d'un critère que nous définirons.
L'analyste pourra examiner les projections des classes sur les plans définis par des paires d'axes factoriels discriminants.
ANALYSE FACTORIELLE DISCRIMINANTE
|
Les données Centrage des données Les barycentres des groupes Décomposition de la variance Covariance totale entre deux variables Covariance intraclasses Covariance interclasses Relation matricielle de décomposition de la variance Décomposition de la variance projetée Le premier axe factoriel discriminant "Meilleure" projection Critère de séparation des barycentres Critère de compacité des classes projetées Incompatibilité des critères Le critère final Résolution du problème La première valeur propre Nombre d'axes discriminants Remarques mathématiques Valeurs propres réelles Orthogonalité des vecteurs propres Décorrélation des axes factoriels Distance euclidienne et Distance de Mahalanobis Cas particulier : deux classes Droite discriminante de Fisher Relation avec la Régression Linéaire Multiple |
||
|
TUTORIEL |
||
________________________________________________________________
|
Tutoriel 2 |
L'Analyse Factorielle Discriminante a pour objectif l'identification d'axes factoriels tels que les projections des classes sur les sous-espaces définis par ces axes soient aussi bien séparées que possible. En ce sens, c'est une technique d'Analyse de Données assez semblable à l'ACP (bien que plus complexe).
Nous passons maintenant à la phase dite "décisionnelle", dans laquelle nous allons construire un classifieur, c'est à dire un modèle prédictif permettant d'affecter une nouvelle observation à une des k classes ayant servi à construire le modèle. Dans le cas où les classes ont des densités multinormales, ce classifieur s'avèrera être optimal (classification bayésienne).
CLASSEMENTS GEOMETRIQUE ET PROBABILISTE
|
AFD et ACP sur les barycentres Classement géométrique Cas général Cas particulier : deux classes Faiblesse de l'affectation géométrique Classement probabiliste Théorème de Bayes Estimation des densités de probabilité conditionnelles Le modèle normal multidimensionnel Cas général : fonctions discriminantes quadratiques Egalité des matrices de covariance : fonctions discriminantes linéaires Modèle linéaire ou modèle quadratique ? Deux classes avec égalité des matrices de covariance Fonctions discriminantes Scores Relation entre scores et probabilités a posteriori |
||
|
TUTORIEL |
||
__________________________________________________________________
|
Tutoriel 3 |
L'Analyse Discriminante est simple dans son principe, mais sa mise en pratique est délicate :
* Il convient de vérifier que, alors que les classes ne sont décrites par leurs moments du premier et du deuxième ordre, elles sont effectivement suffisamment séparées pour que l'Analyse Discriminante ait une chance de fournir un bon résultat.
* Ensuite, le recours au modèle linéaire exige l'égalité des matrices de covariances, hypothèse hasardeuse qu'il convient de vérifier.
* L'aspect descriptif (facteurs discriminants) pose la question de la signification statistique des axes factoriels.
* Enfin, comme pour toute technique de modélisation, se pose la question de la sélection des variables à incorporer dans le modèle.
VALIDATION D'UNE ANALYSE DISCRIMINANTE
|
Tests globaux de séparabilité des classes ANOVA et Analyse Discriminante Le test de Wilks Le Lambda de Wilks Le test de Wilks Cas particuliers Trois classes Deux classes Lambda de Wilks sur une seule variable Le V de Rao Corrélation canonique, pouvoir discriminant d'un vecteur propre Identité des matrices de covariance Test de Box Test de Kullback Combien d'axes ? Tests de signification des valeurs propres Test sur les dernières valeurs propres Test sur les valeurs propres individuelles Sélection de variables Critères conduisant à un test V de Rao Lambda de Wilks Critères ne conduisant pas à des tests Distance de Mahalanobis Corrélation canonique Somme des variances inexpliquées |
||
|
TUTORIEL |
||
____________________________________________________________
Voir aussi:
|