Analyse Discriminante

Au sens propre du terme, "Analyse Discriminante" est une expression synonyme de "Classification supervisée" ou, pour respecter la terminologie française traditionnelle, de "Classement". Elle peut donc désigner globalement des techniques aussi diverses que la Régression Logistique, les Arbres de Décision, ou les Réseaux de Neurones.

Les deux analyses Discriminantes

L'usage contemporain restreint cependant l'expression "Analyse Discriminante" aux deux approches suivantes de la classification :

1) Une approche descriptive : l'Analyse Factorielle Discriminante

Nous vous suggérons de lire dans un premier temps l'entrée sur le discriminant linéaire de Fisher.

Son objectif est d'identifier des directions de l'espace des attributs sur lesquelles les projections des classes sont particulièrement bien séparées. Ces directions, dites "Axes factoriels discriminants", sont obtenues comme combinaisons linéaires des variables originales.
L''illustration ci-dessous représente deux classes C1 et C2 décrites par deux variables x1 et x2. Aucune de ces deux variables prise séparément ne peut séparer efficacement les deux classes en raison du chevauchement important des projections des classes sur les axes représentant ces variables.

 

 

Par contre, la nouvelle direction définie par x1 = x2 est totalement discriminante (image inférieure de l'illustration ci-desssus) car les projections des classes sur cette direction sont parfaitement séparées.

Lorsqu'il y a k classes multinormales dans un espace à n dimensions (p n), nous montrerons que l'Analyse Factorielle Discriminante (AFD) identifie un ensemble de (k - 1) directions orthogonales qui séparent les classes de façon maximale : ce sont les (k - 1) facteurs discriminants. Ajouter à cet ensemble d'autres directions de l'espace est inutile : en fait, nous montrerons que l'AFD peut être interprétée comme une Analyse en Composantes Principales (ACP) sur l'ensemble des k barycentres des classes pondérés par les populations respectives des classes. Si vous êtes familiarisé avec l'ACP, vous réaliserez que les projections des barycentres sur le sous-espace à (k - 1) dimensions engendré par les facteurs discriminants sont "aussi spérarées" que possible au sens de l'ACP, et que les projections des barycentres sur tout axe supplémentaire orthogonal à ce sous-espace sont confondues (aucune séparation).

L'examen visuel des projections des classes sur les plans définis par les paires de facteurs discriminants apporte beaucoup d'information sur la structure des données (positions dans l'espace, tailles, élongations dans différentes directions, et positions respectives des classes).

2) Une approche prédictive : l'Analyse Discriminante Décisionnelle

L'Analyse Discriminante Prédictive est à la fois la plus fondamentale et la plus populaire des techniques de classification.

 

        * Normalité des classes

L'Analyse Discriminante est une technique paramétrique car elle fait l'hypothèse que les densités des classes ont une forme fonctionnelle particulière. Plus précisément, elle suppose que les classes sont multinormales. Cette hypothèse très forte permet alors de déduire :

    * Des règles optimales d'affectation de nouvelles observations aux classes.

    * Des estimations précises des probabilités a posteriori de chacune des classes. En d'autres termes, étant donnée une nouvelle observation, l'AD calcule, pour chaque i, une bonne estimation de la probabilités Pi pour que cette nouvelle observation appartienne à la classe Ci.

Dans le cas général, les fonctions discriminantes de l'AD sont quadratiques. Mais des hypothèses simplificatrices supplémentaires permettent de ne considérer que des fonctions discriminantes linéaires, ce qui conduit alors à des frontières entre classes linéaires par morceaux ("Analyse Discriminante Linéaire"). Il peut arriver que cette version simplifiée de l'AD ait des performances supérieures à celle de la version "complète" pour des raisons que nous abordons ci-dessous.

 

        * Estimation des densités des classes

L'Analyse Discriminante est une technique indirecte. Elle procède en deux étapes :

    - Dans un premier temps, elle estime la moyenne et la matrice de covariance de chacune des classes (ce qui suffit à spécifier complètement une distribution multinormale).

    - Puis elle fait appel au Théorème de Bayes pour estimer les probabilités a posteriori des différentes classes, ce qui permet alors de définir les régions de décision.

Cette approche est différente de celle utilisée par les techniques dites "directes" (comme la Régression Logistique), qui estiment les probabilités a posteriori directement sans la phase intermédiaire d'estimation des densités des classes.

Forces et faiblesses de l'Analyse Discriminante

La technique paramétrique de classification la plus simple (et généralement très mauvaise) consiste à affecter une observation à la classe dont le barycentre est le plus proche d'elle, au sens de la distance euclidienne. C'est une technique "du premier ordre" en ceci qu'elle ne prend en compte que les coordonnées des barycentres des classes, qui sont des fonctions linéaires (premier degré) des coordonnées des observations, mais ignore totalement les formes des classes (extensions dans les différentes directions de l'espace).

L'étape suivante consiste à prendre en compte l'information "du deuxième ordre" sur les classes, c'est à dire leurs matrices de covariance en plus de leurs barycentres : les coefficients des matrices de covariance sont des fonctions quadratiques (deuxième degré) des observations. C'est exactement ce que fait l'Analyse Discriminante. En fait, plutôt que de parler de "l'hypothèse de normalité des classes", il est équivalent de  dire que l'Analyse Discriminante est la plus simple des "techniques de classification du deuxième ordre", sans faire référence à des distributions de densité particulière des classes. Mais comme des classes multinormales sont complètement spécifiées par leurs barycentres et leurs matrices de covariance, l'Analyse Discriminante devient parfaite pour des classes multinormales.

Il s'avèrera que l'AD est peut en fait s'interpréter comme étant une technique de "plus proche barycentre" (premier ordre), pour autant que la distance euclidienne soit remplacée par la "distance de Mahalanobis", qui est définie à partir des informations du second ordre sur les classes.

La force de l'Analyse Discriminante est donc qu'elle est une technique simple et pourtant optimale, complète et précise dès lors que les hypothèses "du second ordre" sont vérifées (classes multinormales).

 

Bien entendu, c'est là également que réside sa faiblesse. Dans le monde réel, les classes ne sont jamais parfaitement multinormales : dans quelle mesure les performances de l'Analyse Discriminante se dégradent-elles quand les classes s'écartent de la normalité ? La théorie n'a pas de réponse à cette question, mais une des raisons de la popularité de l'Analyse Discriminante est que des décennies d'utilisation intensive ont montré que l'AD est raisonnablement robuste vis-à-vis des écarts aux hypothèses standard.

Une autre faiblesse de l'Analyse Discriminante est que sa version complète nécessite l'estimation d'autant de matrices de covariance qu'il y a de classes. Ceci conduit rapidement à des modèles contenant des dizaines, voire des centaines de paramètres, un nombre important au regard des volumes limités de données habituellement disponibles (voir le "compromis biais-variance"). En conséquence, l'Analyse Discriminante complète tend à être instable (modèle fortement dépendant des données d'apprentissage),  alors que ses versions "restreintes", avec moins de paramètres, gagnent en stabilité mais au prix d'un biais accru. Les versions modernes de l'AD incorporent des mécanismes de régularisation dont les principes sont semblables à ceux de la Régression Ridge, et qui permettent un réglage fin du compromis entre le biais et la variance du modèle.

Généralisations de l'Analyse Discriminante

Malgré sa robustesse, l'Analyse Discriminante perd de son efficacité lorsque les distributions des classes s'écartent sensiblement de la multinormalité. Il existe alors plusieurs recours :

Analyse Discriminante à Noyaux

Un paradigme général de contournement des limites des modèles d'ordre faible consiste à projeter les observations dans un espace de grande dimension par une transformation non linéaire appropriée, puis à utiliser la technique standard dans cet espace de grande dimension, et enfin de "ramener" dans l'espace de départ les régions de décision. La mise en œuvre de ce principe conduit à "l'Analyse Discriminante à Noyaux" (ADN), qui peut produire des frontières de décision aux formes arbitrairement complexes (au lieu d'être simplement quadratiques dans le cas de l'AD ordinaire).

Théorie et calculs de l'ADN deviennent un peu lourds, et cette technique n'a pas encore trouvé sa place dans la boîte à outils quotidienne de l'analyste.

Régression Logistique

Une démarche plus courante consiste à se tourner vers la Régression Logistique. Nous verrons qu'en Analyse Discriminante, une certaine fonction des probabilités a posteriori des classes, appelée logit, est une fonction linéaire des variables. Mais le logit peut être défini indépendamment de la notion de "normalité des classes" et de fait, l'AD calcule les probabilités a posteriori à partir de la seule structure linéaire du logit (dont les coefficients sont cependant calculés à partir des résultats de l'estimation des matrices de covariance des classes).

Il est alors tentant de se débarasser de l'encombrante hypothèse de normalité de classes, de remplacer celle-ci par l'hypothèse apparemment plus faible de linéarité du logit (dont les coefficients doivent alors être calculés par une autre méthode), et de voir ce qui sort de cette nouvelle approche.

Le résultat est la puissante Régression Logistique. La linéarité du logit n'impose pas de forme particulière aux densités des classes, mais plutôt une relation fonctionnelle entre ces densités. Bien entendu, les densités multinormales vérifient cette relation, mais seulement comme un cas particulier : la linéarité du logit définit (implicitement) une famille de densités de probabilités beaucoup plus large que la seule famille multinormale, et la Régression Logistique est donc plus générale que l'Analyse Discriminante.

Un modèle qui ne formule pas d'hypothèse sur les natures des densités conditionnelles mais seulement sur leur relation est dit semi-paramétrique.

-----

Celà étant, tout a un prix, et la Régression Logistique est plus complexe, demande plus de calculs et est parfois plus instable que l'Analyse Discriminante. Il est donc raisonnable d'attaquer un problème de classification d'abord par l'Analyse Discriminante, et de ne se tourner vers la Régression Logistique que si l'AD ne peut visiblement pas obtenir de résultat satisfaisant.

Réseaux de Neurones

Les Réseaux de Neurones font un pas de plus dans la généralisation en supprimant toute hypothèse sur les densités conditionnelles. L'architecture du plus utilisé des Réseaux de Neurones, le Perceptron Multicouches (PMC), peut en fait être perçue comme une extension de celle de la Régression Logistique. Sur des problèmes difficiles, les PMC permet parfois d'atteindre des résultats inaccessibles aux autres techniques.

Mais, là encore, le gain en souplesse s'accompagne de nouvelles difficultés :

    * Un PMC devra, pour exprimer sa puissance, contenir un plus grand nombre de paramètres que la Régression Logistique, et exigera donc un plus grand ensemble de données d'apprentissage que celle-ci pour atteindre un niveau donné de précision et/ou de stabilité (voir à nouveau le "compromis biais-variance").

    * L' "apprentissage" (ajustement du modèle aux données) peut être très long et incertain (beaucoup de minima locaux).

    * Les distributions de probabilité des paramètres sont bien entendu totalement inconnues, ce qui exclut la possibilité de concevoir des intervalles de confiance ou des tests sur les valeurs calculées de ces paramètres.

Conclusion

L'Analyse Discriminante est depuis des décennies la technique de référence en classification, et le restera pour longtemps encore. Elle est simple, bien comprise sur le plan théorique, et raisonnablement efficace sur la plupart des problèmes ordinaires. Un nouveau problème de classification devrait donc être abordé en premier lieu en utilisant l'Analyse Discriminante.

Ce n'est que lorsque celle-ci aura démontré son impuissance résoudre le problème de façon satisfaisante qu'il conviendra de se tourner vers des techniques plus puissantes, comme la Régression Logistique ou les Réseaux de Neurones.

_________________________________________________

 

 

 

Tutoriel 1

 

Ce premier Tutoriel traite des aspects géométriques de l'Analyse Discriminante. Le résultat essentiel est que, en ce qui concerne le problème de la séparation des classes, il n'est pas utile de prendre en compte les p dimensions de l'espace initial si p est supérieur à k, le nombre de classes. Nous identifierons un sous-espace de dimension (k - 1) dans lequel nous projeterons les observations. Ce sous-espace est sous-tendu par (k - 1) axes factoriels discriminants qui jouent vis-à-vis de la discriminantion des rôles similaires à ceux des axes factoriels en Analyse en Composantes Principale. Ainsi, le premier axe factoriel discriminant est celui sur lequel les projections des classes sont le "mieux séparées" au sens d'un critère que nous définirons.

L'analyste pourra examiner les projections des classes sur les plans définis par des paires d'axes factoriels discriminants.

-----

Cette analyse, simple en principe, est cependant plus complexe que l'Analyse en Composantes Principales en raison du fait que les données sont regroupées en plusieurs classes, ce qui impose au calcul de l'inertie projetée de passer par une phase préliminaire dite "de décomposition de la variance".

De plus, nous devrons diagonaliser une matrice en général non symétrique, dont il conviendra de montrer que les valeurs propres sont cependant réelles. La question ne se pose pas en ACP, où la matrice correspondante est toujours symétrique, et ses valeurs propres donc toujours réelles.

 

 

 

 

ANALYSE FACTORIELLE DISCRIMINANTE

Les données

Centrage des données

Les barycentres des groupes

Décomposition de la variance

Covariance totale entre deux variables

Covariance intraclasses

Covariance interclasses

Relation matricielle de décomposition de la variance

Décomposition de la variance projetée

Le premier axe factoriel discriminant

"Meilleure" projection

Critère de séparation des barycentres

Critère de compacité des classes projetées

Incompatibilité des critères

Le critère final

Résolution du problème

La première valeur propre

Nombre d'axes discriminants

Remarques mathématiques

Valeurs propres réelles

Orthogonalité des vecteurs propres

Décorrélation des axes factoriels

Distance euclidienne et Distance de Mahalanobis

Cas particulier : deux classes

Droite discriminante de Fisher

Relation avec la Régression Linéaire Multiple

TUTORIEL

________________________________________________________________

 

Tutoriel 2

 

L'Analyse Factorielle Discriminante a pour objectif l'identification d'axes factoriels tels que les projections des classes sur les sous-espaces définis par ces axes soient aussi bien séparées que possible. En ce sens, c'est une technique d'Analyse de Données assez semblable à l'ACP (bien que plus complexe).

Nous passons maintenant à la phase dite "décisionnelle", dans laquelle nous allons construire un classifieur, c'est à dire un modèle prédictif permettant d'affecter une nouvelle observation à une des k classes ayant servi à construire le modèle. Dans le cas où les classes ont des densités multinormales, ce classifieur s'avèrera être optimal (classification bayésienne).

 

 

CLASSEMENTS GEOMETRIQUE ET PROBABILISTE

AFD et ACP sur les barycentres

Classement géométrique

Cas général

Cas particulier : deux classes

Faiblesse de l'affectation géométrique

Classement probabiliste

Théorème de Bayes

Estimation des densités de probabilité conditionnelles

Le modèle normal multidimensionnel

Cas général : fonctions discriminantes quadratiques

Egalité des matrices de covariance : fonctions discriminantes linéaires

Modèle linéaire ou modèle quadratique ?

Deux classes avec égalité des matrices de covariance

Fonctions discriminantes

Scores

Relation entre scores et probabilités a posteriori

TUTORIEL

__________________________________________________________________

 

Tutoriel 3

 

L'Analyse Discriminante est simple dans son principe, mais sa mise en pratique est délicate :

    * Il convient de vérifier que, alors que les classes ne sont décrites par leurs moments du premier et du deuxième ordre, elles sont effectivement suffisamment séparées pour que l'Analyse Discriminante ait une chance de fournir un bon résultat.

    * Ensuite, le recours au modèle linéaire exige l'égalité des matrices de covariances, hypothèse hasardeuse qu'il convient de vérifier.

    * L'aspect descriptif (facteurs discriminants) pose la question de la signification statistique des axes factoriels.

    * Enfin, comme pour toute technique de modélisation, se pose la question de la sélection des variables à incorporer dans le modèle.

 

 

VALIDATION D'UNE ANALYSE DISCRIMINANTE

Tests globaux de séparabilité des classes

ANOVA et Analyse Discriminante

Le test de Wilks

Le Lambda de Wilks

Le test de Wilks

Cas particuliers

Trois classes

Deux classes

Lambda de Wilks sur une seule variable

Le V de Rao

Corrélation canonique, pouvoir discriminant d'un vecteur propre

Identité des matrices de covariance

Test de Box

Test de Kullback

Combien d'axes ?  Tests de signification des valeurs propres

Test sur les dernières valeurs propres

Test sur les valeurs propres individuelles

Sélection de variables

Critères conduisant à un test

V de Rao

Lambda de Wilks

Critères ne conduisant pas à des tests

Distance de Mahalanobis

Corrélation canonique

Somme des variances inexpliquées

TUTORIEL

 

 ____________________________________________________________

 

Voir aussi:

Classification (supervisée)

Matrice de Covariance

Analyse en Composantes Principales

Inertie

Discriminant de Fisher

Régression Logistique

Téléchargez ce Glossaire