Animation interactive

Mahalanobis  (Distance de)

La "distance de Mahalanobis" est une métrique (ç.à.d. une définition de ce que l'on appelle "distance entre deux points") qui est mieux adaptée que la distance euclidenne habituelle pour décrire des situations dans lesquelles les distributions considérées ne sont pas à symétrie sphérique. Bien que sa définition ne l'exige pas, elle est plus particulièrement adaptée aux distributions multinormales.

Cette page décrit les deux circonstances usuelles dans lesquelles la distance de Mahalanobis joue un rôle important :

    1) Distance d'un point à la moyenne d'une distribution.

    2) Et plus bas, distance entre les moyennes de deux distributions.

 

Distance de Mahalanobis d'un point à la moyenne d'une distribution

Définition de la distance de Mahalanobis

Dans l'image ci-dessous, les deux points A et B sont à égale distance de la moyenne µ de la distribution.

 

 

 

Il ne paraît cependant pas raisonnable de dire qu'ils occupent des positions "équivalentes" par rapport à µ car :

    * A est dans une région de faible densité,

    * Alors que B est dans une région de forte densité.

Dans une situation comme celle-ci, la distance euclidienne habituelle :

d ²(A, µ) = i (ai - µi)² 

ne semble pas être le bon outil pour mesurer la distance d'un point au centre de la distribution.

Nous pourrions par contre considérer comme "également distants de la moyenne" deux points ayant la même densité de probabilité : ils seraient alors équiprobables lors d'un tirage d'observations de la population.

Supposons la distribution multinormale. En raison de la forme analytique de la distribution normale multivariée, ces deux points conduiraient à la même valeur de la quantité :

 

D ² = (x - µ)'-1(x - µ)

 

 

est la matrice de covariance de la distribution.

D s'appelle la "distance de Mahalanobis" du point x à la moyenne µ de la distribution.

 

Distance de Mahalanobis et Analyse Discriminante

Supposons que nous voulions discriminer entre deux classes sphériques d'égales tailles et d'égales probabilités a priori. La règle de classication optimale est alors simplement d'affecter l'observation x à la classe dont le centre (moyenne) au sens euclidien du terme est le plus proche.

 

 

 

Mais si les classes ne sont plus sphériques (tout en gardant des matrices de covariance identiques), cette règle n'est plus optimale : l'observation x doit, en toute généralité, être affectée à la classe à laquelle elle a la plus grande probabilité d'appartenir, et donc à la classe ayant la plus grande densité en x (en raison de l'égalité des probabilité a priori), et donc à la classe présentant la plus petite valeur de la distance de Mahalanobis. Par exemple, dans l'image inférieure de l'illustration ci-dessus, x doit être affecté à C1, bien qu'étant dans le "territoire" de C2 d'un point de vue Euclidien.

Donc la règle qui stipule d'affecter une observation à la classe dont le centre est le plus proche est encore valide à condition de remplacer la distance euclidienne par la distance de Mahalanobis.

C'est le point de vue qu'adopte et développe l'Analyse Discriminante.

Transformation de Mahalanobis et standardisation d'une distribution

On associe souvent la distance de Mahalanobis à la distribution normale multivariée, mais son utilisation dépasse en fait ce seul cas.

Considérons une distribution quelconque (non dégénérée) de matrice de covariance . Nous montrons ici qu'il est possible d'identifier une transformation qui rend la distribution transformée "standard", c'est à dire dont les variables marginales sont standardisées et décorrélées. La matrice de covariance de cette nouvelle distribution est alors I, la matrice identité.

Cette transformation s'appelle la transformation de Mahalanobis

La transformation de Mahalanobis est un outil puissant pour étudier la distribution normale multivariée car elle permet souvent :

    * De transformer la distribution multinormale dans la distribution multinormale standard (sphérique).

    * De résoudre le problème sur cette distribution particulèrement simple,

    * Puis de ramener la solution vers la distribution originale en utilisant la transformation de Mahalanobis inverse.

 

Par exemple, elle peut être utilisée :

    * Pour calculer les distributions marginales de la distribution normale multivariée (voir ici).

    * Pour étudier les distributions et conditions d'indépendance des formes quadratiques dans des variables normales multivariées (voir ici).

    * Pour simuler un vecteur multinormal quelconque en conjonction avec la transformation de Box-Muller.

Distance de Mahalanobis et Régression Linéaire

Le modèle standard de Régression Linéaire est très sensible à la présence de points atypiques, qui ont sur les paramètres et sur les prédictions du modèle une influence anormalement grande.

La recherche de points atypiques est difficile, et recourt à plusieurs outils dont la distance de Mahalanobis de chaque observation au barycentre du nuage des observations (voir aussi distance de Cook). Une forte valeur de la distance de Mahalanobis montre que l'observation considérée est en périphérie de nuage, et doit donc être considérée avec attention, voire avec suspicion.

Distribution du carré de la distance de Mahalanobis

Le carré de la distance de Mahalanobis (D ²) étant utilisée en modélisation de données, il est important d'en connaître la distribution.

 

            * Cas général

Cette distribution n'est malheureusement pas calculable dans le cas général. Cependant, nous montrons ici que pour toute distribution (non dégénérée), la moyenne de D ² est égale à p, la dimension de l'espace.

 

E[D ²] = p

 

 

            * Cas particulier : distribution normale multivariée

Par contre, si la distribution est mutinormale, alors la distribution de D ² est connue : nous montrons ici que c'est une distribution du Chi-2 à p degrés de liberté.

 

Si x est multinormale, alors D ² ~p

 

 

Bien entendu, en raison des propriétés de la distribution du , nous retrouvons que la moyenne de D ² est égale à p.

Notons que bien que la définition de la distance de Mahalanobis fasse explicitement référence à la matrice de covariance , la distribution de D ² ne dépend pas de cette matrice : elle est la même pour toutes les distributions normales multivariées (non dégénérées), et ne dépend que de la dimension de l'espace.

Ce point est illustré par l'animation suivante. 

Animation

Cette animation illustre la distribution du carré de la distance de Mahalanobis dans le cas de la distribution normale bivariée.

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

Cliquez sur "Go".

Des observations sont tirées de façon répétitive depuis une distribution normale bivariée standard. Le cadre inférieur affiche la distribution théorique du carré de la distance de Mahalanobis D ², qui est 2. Observez la construction de l'histogramme correspondant.

 

Pendant le fonctionnement de l'animation, changez les caractéristiques de la distribution :

    * En changeant les écarts-type des deux variables marginales (Curseurs "SD1" et "SD2").

    * En changeant la valeur du coefficient de corrélation entre ces deux marginales (Curseur "ρ").

 

Malgré ces modifications, rien ne change dans le cadre inférieur : la distribution théorique de D ² reste la même, et la construction de l'histogramme n'est pas affectée. Ainsi nous voyons que :

    * La nature multinormale de la distribution détermine la nature en  de la distribution de D ².

    * Le nombre de degrés de liberté de cette distribution est déterminé par la dimension de l'espace,

 

mais tous les autres paramètres (intégrés dans la matrice de covariance) sont sans influence.


L'animation ne permet pas d'ajuster le coefficient de corrélation jusqu'à -1 ou +1. Ceci est dû au fait que lorsque la valeur du coefficient de corrélation approche ces valeurs, le calcul de l'inverse de la matrice de covariance implique la manipulation de nombres très grands qui conduisent à des instabilités numériques.
Lorsque le coefficient de corrélation est égal à -1 ou à +1, la distribution devient dégénérée : la matrice de covariance est alors singulière, et n'a donc plus d'inverse. La distance de Mahalanobis n'est alors plus définie.

 

Distance de Mahalanobis entre les moyennes de deux classes, test du T² de Hotelling

Nous venons de présenter la distance de Mahalanobis entre une observation et la moyenne d'une distribution.

La même définition s'applique au cas de la distance entre les moyennes de deux distributions, que nous supposerons multinormales et de matrices de covariance Σ identiques.

 

 

Nous avons alors

D ² = (µ2 - µ1)'Σ-1(µ2 - µ1)

Par abus de language, on dira que D est la "distance entre les classes C1 et C2".

La première question que se pose l'analyste avant de construire un modèle de classification est de savoir si les classes sont effectivement différentes, ou bien si leur degré de chevauchement est tel que tout modèle conduira à des résultats illusoires. Dans le cas de classes multinormales de matrices de covariance identiques, la question se réduit à savoir si les deux barycentres µ1 et µ2 sont superposés ou non. Lorsque les deux barycentres sont effectivement superposés (et les distributions des deux classes par conséquent identiques), la distribution de la distance de Mahalanobis est connue, ce qui permet de tester l'hypothèse nulle H0 : µ1 = µ2.

Plus précisemment, soient les conditions suivantes :

    * n1 observations sont tirées de la classe C1,

    * n2 observations sont tirées de la classe C2,

    * Les deux classes sont multinormales de dimension p et sont de moyennes et de matrices de covariance Σ identiques,

    * Cette matrice de covariance commune est estimée par Σ*, la moyenne des matrices de covariance empiriques de C1 et de C2, soient Σ*1 et

Σ*2  pondérées par leurs populations respectives :

Σ* =

où n = n1 + n2,

    * Les moyennes empiriques des deux classes sont notées respectivement 1 et 2.

On définit alors le carré de la distance de Mahalanobis empirique entre les deux classes par :

Dp²* = ( 2 - 1)'Σ*( 2 - 1)

On montre (difficile) qu'alors, si µ1 = µ2 :

 

 

    

 

F est la distribution de Fisher. Le test correspondant s'appelle le "test du T ² de Hotelling".

-----

En particulier, dans le cas unidimensionnel (p = 1), le carré de la distance de Mahalanobis entre les moyennes empiriques de deux distribution normales est :

 

où σ²* est l'estimation de la variance commune aux deux distributions.

Nous reconnaissons en D1²* le carré de la statistique T du test t à deux échantillons (univariés) indépendants. Sa distribution est obtenue en faisant p = 1 dans l'expression multivariée ci-dessus :

 

 ce qui ne nous surprend pas puisque nous savons que le carré d'une variable distribuée comme tn - 2 suit la distribution F(1, n - 2).

 

_______________________________________________________

 

Voir aussi:

Matrice de covariance

Analyse Discriminante

Point atypique

Régression Linéaire Multiple

Distance de Cook

Distribution Normale Multivariée

Formes quadratiques

Téléchargez ce Glossaire