Animation interactive

Covariance  (Matrice de)

La variance d'une variable aléatoire est une mesure de la dispersion des valeurs prises par cette variable autour de sa moyenne.

La matrice de covariance generalise le concept de variance aux vecteurs aléatoires (ensembles de variables aléatoires).

Définition de la matrice de covariance

Définition informelle

Soit x = {X1, X2, ..., Xp} un vecteur aléatoire de vecteur moyen µ = {µ1, µ2, ..., µp}.

    * La dispersion de chacune des Xi autour de sa moyenne est mesurée par sa variance. Rappelons que la variance d'une v.a. est identique à la covariance de cette variable avec elle-même.

    * La covariance Cov(Xi, Xj ) de la paire {Xi, Xj } est une mesure du couplage linéaire entre ces deux variables.

 

Ces grandeurs (en association avec le vecteur moyen) définissent complètement la structure de la distribution de probabilité conjointe de {X1, X2, ..., Xp} jusqu'à l'ordre 2, de même que la moyenne et la variance d'une v.a. définissent complètement sa distribution jusqu'à l'ordre 2.

 

Il est habituel de regrouper ces nombres dans un tableau carré appelé Matrice de Covariance de la distribution selon le schéma suivant :

 

 

Une matrice de covariance est souvent notée .

    * ij est la covariance de Xi et Xj .

    * ii est la covariance de Xi avec elle-même, et est donc sa variance i². Les éléments diagonaux d'une matrice de covariance sont donc les variances des variables composant le vecteur aléatoire .

Définition formelle

De même que la variance d'une v.a. X est définie par :

Var(X) = E[(X - µ)²]

la matrice de covariance d'un vecteur aléatoire est définie de façon formelle par :

 

= E[(x - µ)(x - µ)']

 

dont on vérifie facilement l'équivalence avec la définition informelle donnée ci-dessus.

-----

De même que :

Var(X) = E[X²] - E[X

pour une variable aléatoire, on vérifie aisément que pour un vecteur aléatoire x :

 

= E[xx'] - µµ'

 

______________

Si toutes les variables sont standardisées, la matrice de covariance est identique à la Matrice de Corrélation.

Changement de repère

La matrice de covariance d'un vecteur aléatoire n'est pas une quantité intrinsèque attachée à sa distribution : elle dépend du repère dans lequel elle a été calculée. Nous verrons ci-dessous qu'il existe des repères dans lesquels la matrice de covariance prend une forme particulièrement simple et utile.

Matrice de covariance et distribution normale multivariée

La distribution normale multivariée (ou "distribution multinormale") joue un rôle central en modélisation car les données réelles ont souvent une distribution au moins approximativement multinormale.

Rappelons que la distribution normale multivariée est entièrement déterminée par son vecteur moyen et sa matrice de covariance. Il est donc équivalent de dire :

    * La théorie suivante suppose que les données ont une distribution multinormale.

    * La théorie suivante s'applique à toute distribution, mais n'est développée que jusqu'à l'ordre 2.

 

C'est par exemple l'approche choisie par l'Analyse Discriminante.

Matrice de covariance empirique

Nous avons défini la matrice de covariance d'une distribution multivariée. Mais la même définition s'applique à un échantillon issu de cette distribution (comme pour le cas univarié). Les termes "variance" et "covariance" doivent simplement être remplacés par "variance empirique" et "covariance empirique". La matrice ainsi obtenue est alors appelée "matrice de covariance empirique" ou "matrice de covariance de l'échantillon".

Soit X la matrice d'un échantillon centré de taille n :

 

    * Le premier tirage depuis la distribution a fourni une première réalisation du vecteur aléatoire dont les coordonnées constituent la première ligne de X.

    * Le deuxième tirage depuis la distribution a fourni une deuxième réalisation du vecteur aléatoire dont les coordonnées constituent la seconde ligne de X.

    * ...

et on effectue n tirages, de sorte que nous avons un échantillon de taille n.

 

On voit alors aisément que la matrice de covariance empirique  est égale à 1/n fois le produit de X par sa transposée :

 

 

X'X = n

 

 

L'illustration ci-dessus représente le cas le plus courant où le nombre d'observations n est supérieur au nombre de variables.

Propriétés d'une matrice de covariance

La matrice de covariance n'est pas simplement un moyen commode de représenter des données. C'est également une matrice au sens mathématique du terme, et qui possède d'importantes propriétés découlant du fait qu'une matrice de covariance est toujours semidéfinie positive.

La réciproque est également vraie : toute matrice semidéfinie positive est la matrice de covariance d'un vecteur aléatoire (en fait, d'une infinité).

 

En particulier, la décomposition spectrale de la matrice de covariance d'un vecteur aléatoire x montre que :

    * Il existe une base orthonormée dans laquelle la matrice de covariance de x est diagonale. Les axes de cette base s'appellent les Composantes Principales de (ou de la distribution de x).

    * Les éléments hors-diagonale de cette nouvelle matrice étant nuls, les nouvelles variables définies par cette nouvelle base (les projections de x sur les Composantes Principales) sont décorrélées.

    * Les éléments diagonaux de cette matrice diagonale sont égaux aux valeurs propres correspondantes de . Ainsi, les variances des projections de x sur les Composantes Principales sont égales aux valeurs propres correspondantes de .

    * Si les unités sont changées sur les Composantes Principales de façon à ce que les projections de x sur celles-ci aient toutes la même variance, la distribution est dite "sphérisée" (ce qui est un abus de langage, la distribution n'étant pas à proprement parler à symétrie sphérique) : les variables marginales sont maintenant standardisées et décorrélées.


Si un changement d'unités sur les axes originaux fait que ceux-ci transportent la même variance (par exemple en standardisant les données), la distribution résultante, bien qu'ayant la même variance sur tous les axes, n'est pas sphérisée : les variables marginales sont corrélées. Vous pourrez vous en rendre compte dans l'animation ci-dessous.

__________________________________________________________

Ces remarques sont le point de départ de l'Analyse en Composantes Principales (ACP).

Elles sont illustrées par l'animation interactive suivante.

Animation

Cette animation illustre le concept de Matrice de Covariance.

 

 

Le "Livre des Animations" sur votre ordinateur

 

Cadre supérieur

  • Le cadre supérieur montre un échantillon (points rouges) ainsi qu'un repère (x, y). Son barycentre est marqué d'une croix noire.
  • Une ellipse bleue et deux axes verts (que nous appellerons par la suite x' et y' ) qui sont respectivement les directions du grand et du petit axe de l'ellipse.
    • Le grand axe de l'ellipse est tel que la projection (orthogonale) de l'échantillon sur cet axe présente la plus grande variance possible. Aucun autre axe ne produira de projection ayant une variance supérieure. En particulier, les projections sur les axes originaux x et y ont des variances inférieures à celle observée sur x'. En termes intuitifs, le nuage de points est plus étiré dans la direction x' que dans n'importe quelle autre direction.
      Dans le vocabulaire de l'Analyse en Composantes Principales (ACP),  x' est la Première Composante Principale du nuage.
       
    • Le petit axe y' de l'ellipse est défini comme étant la direction orthogonale à x'. C'est la Seconde Composante Principale du nuage. On montre que la variance de la projection du nuage sur cet axe est la plus petite possible. En particulier, les projections sur les axes originaux x et y ont des variances supérieures à celle observée sur y'. En termes intuitifs, le nuage de points est moins étiré dans la direction y' que dans n'importe quelle autre direction.
       
    • Pourquoi l'ellipse ? Elle ne joue aucun rôle actif dans l'animation, et n'est présente que comme aide visuelle. Elle matérialise cependant un fait important. La Matrice de Covariance n'est qu'une description sommaire de la forme et de l'orientation du nuage de points, car elle ne prend en compte que les moments du second ordre de ce nuage (variances sur x et y et covariance), à l'exclusion des moments d'ordre supérieur. Deux nuages de points peuvent donc être sensiblement différents, et pourtant avoir des Matrices de Covariance identiques.
      Le concept de Matrice de Covariance s'étend aux distributions (et pas seulement à des échantillons finis). Les mêmes limitations de la Matrice de Covariance comme descripteur d'un nuage de points s'appliquent au cas de la description des distributions. Il existe cependant une exception très importante : si la distribution est connue comme étant multinormale, alors la Matrice de Covariance la spécifie complètement (à l'exception de la position de la moyenne).
      Les distributions multinormales ont la propriété importante suivante : la densité selon toute direction est normale. C'est à ce stade qu'intervient l'ellipse :
      • Imaginez la seule et unique distribution binormale ayant la même Matrice de Covariance que le nuage de points, et centrée sur son barycentre..
      • La densité le long de toute ligne passant par le barycentre est normale.
      • Alors cette ligne intersecte l'ellipse à exactement un écart-type du barycentre.


Beaucoup de techniques de modélisation reposent uniquement sur les moyennes et les matrices de coavariance (la plus connue étant l'Analyse Discriminante). On lit alors souvent "La distribution est supposée être multinormale". Ce que cette phrase veut dire est en fait "La technique décrite ci-dessous ne prend en compte que les moments du premier et du second ordre de la ou des distribution(s), à l'exclusion des moments d'ordres supérieurs".

Cadre inférieur

            Les axes verts (x', y') du cadre supérieur ont subi une rotation qui les amène dans les positions horizontale et verticale familières. Le nuage de points et l'ellipse ont subi la même rotation. Les axes de l'ellipse sont maintenant respectivement horizontal et vertical, mais l'ellipse a exactement la même forme et la même taille que l'ellipse du cadre supérieur.

Rappelons que x' est la direction d'élongation maximale du nuage. Celui-ci semble donc être étiré horizontalement (mais sa forme est en fait identique à celle du nuage du cadre supérieur).

De même, y' est la direction d'élongation minimale. Le nuage inférieur semble être "écrasé" dans la direction y'.

Matrice de Covariance

            A droite du cadre supérieur est la Matrice de Covariance du nuage de points.

                * Elements diagonaux

                    Ce sont les variances des projections du nuage respectivement sur l'axe horizontal x et l'axe vertical y.

                * Elements non diagonaux

                    Ils sont égaux (la matrice est dit "symétrique"), et leur valeur commune est Cov(x, y) = Cov(y, x).

Matrice de Covariance diagonalisée

                A la droite du cadre inférieur est la "Matrice de Covariance diagonalisée". C'est la Matrice de Covariance du nuage du cadre inférieur.

                * Elements diagonaux

                    Ce sont les variances des projections du nuage respectivement sur l'axe horizontal x' et l'axe vertical y'.

                        * La première valeur est la plus grande variance observable d'une projection du nuage sur un axe. Remarquez que cette valeur est supérieure aux variances lues dans la Matrice de Covariance. Dans le vocabulaire de l'Algèbre Linéaire (et de l'ACP), cette valeur est la Première Valeur Propre de la Matrice de Covariance initiale.

La longueur du demi grand-axe de l'ellipse est égale à la racine carrée de cette Première Valeur Propre. Elle est représentée par un segment orange horizontal.

                        * La seconde valeur est la plus petite variance observable d'une projection du nuage sur un axe. Remarquez que cette valeur est inférieure aux variances dans la Matrice de Covariance. Cette valeur est la Seconde Valeur Propre de la Matrice de Covariance initiale.  

La longueur du demi petit-axe de l'ellipse est égale à la racine carrée de cette seconde valeur propre. Elle est représentée par un segment orange vertical.

                        * La somme des deux variances de la Matrice de Covariance est égale (aux erreurs d'arrondi près) à la somme des variances de la Matrice de Covariance diagonalisée. Ceci est d'une part un théorème d'Algèbre Linéaire (la "trace" d'une matrice carrée est invariante dans un changement de repère orthonormé). D'autre part, cette somme reçoit en ACP une interprétation indépendante de tout système de référence.

 

                * Elements non diagonaux

                    Les deux éléments non diagonaux sont nuls (et en particulier, la matrice est donc symétrique). Ceci s'interprète de la façon suivante "x' et y' ont une covariance nulle, et sont donc décorrélées". Ceci peut se démontrer, mais est intuitif : en se déplaçant le long de l'axe x', la quantité y' ne montre aucune tendance systématique à l'augmentation ou à la diminution. La mise en évidence d'une telle tendance est la raison d'être de la covariance, et donc "absence de tendance" conduit naturellement à "covariance nulle".

Animation

            Dans le cadre supérieur, déplacez les points rouges avec votre souris, et observez les changements :

    • Des directions des axes verts (et donc de l'ellipse).
    • Des position, taille et applatissement de l'ellipse.
    • Des valeurs de variances selon x, y, x' and y'.
    • De la covariance Cov(x, y).
    • La somme des éléments diagonaux (aussi bien de la Matrice de Covariance que de la Matrice de Covariance Diagonalisée).

 

Dans le "cas général", le nuage de points a une forme quelque peu allongée qui fait des angles non nuls avec x et y.

  • Eloignez les points du barycentre, tout en conservant l'aspect général du nuage. La somme des éléments diagonaux augmente : elle peut être perçue comme une mesure de l'étendue globale du nuage.
  • Rendez les axes de l'ellipse horizontal et vertical. Le nuage devient identique au nuage du cadre inférieur. Vous avez manuellement identifié les Composantes Principales du nuage courant. Notez que la covariance est alors nulle.
  • Créez plusieurs configurations telles que l'ellipse ait toujours à peu près la même forme, mais des orientations différentes. L'ellipse inférieure reste inchangée, mais la Covariance change. La Covariance n'est pas simplement une mesure de l'élongation du nuage, mais est influencée par son orientation. Ce n'est pas une propriété géométrique du nuage de points (à l'inverse de la somme des éléments diagonaux, qui est invariante dans une rotation du nuage).
    En particulier, la covariance est nulle quand le grand axe est soit vertical, soit horizontal.
  • Rendez l'ellipse presque circulaire. Les axes verts (et par conséquent, le nuage inférieur) deviennent très instables. La Covariance est presque nulle. Les variances en x et y sont presque égales, et égales aux valeurs propres (elles-mêmes égales).
    Toute direction est "presque" une Composante Principale. La notion même de Composante Principale perd son sens. La situation est dite dégénérée.
  • Rendez l'ellipse très allongée, et faisant des angles non nuls avec x et y. Le grand axe de l'ellipse ressemble à la droite de Régression de y sur x. Mais il n'est pas la droite de Régression.
    • On montre que la Première Composante Principale minimise la somme des carrés des distances des points à la Composante, les distances étant mesurées perpendiculairement à la CP.
    • Alors que la régression minimise la somme des carrés des distances des points à la droite de régression, les distances étant mesurées parallèlement à l'axe y.

    En général, ces deux droites sont assez proches l'une de l'autre, mais elles ne coïncident pas. Dans les textes anciens, la Première Composante Principale était parfois appelée "Droite de Régression Orthogonale".
     


Un mot à propos des axes verts. Leurs directions sont définies sans ambiguïté, mais leur orientations sont arbitraires. Cette animation a choisi des orientations telles que :
   * Les valeurs croissantes de x' vont toujours vers la droite.
   * Les valeurs croissantes de y' vont toujours vers le haut.

Ceci provoque des changements brutaux d'orientation des axes quand ceux-ci passent par la position verticale (x') ou horizontal (y'), avec une discontinuité dans la représentation du nuage de points dans le cadre inférieur.

 

__________________________________________________


Autres animations :

Inertie

Distribution normale bivariée

Distance de Mahalanobis

__________________________________________________________________

 

 

 

Tutoriel

 

 Ce Tutoriel aborde quelques propriétés des matrices de covariance.

 

    * Nous montrons qu'une matrice de covariance est toujours semidéfinie positive, et inversement, que toute matrice semidéfinie positive est la matrice de covariance d'un vecteur aléatoire (en fait, d'une infinité).

 

    * Lorsqu'une matrice de covariance n'est que semidéfinie positive au lieu d'être définie positive, nous montrerons que la distribution du vecteur aléatoire est dégénérée : elle n'occupe qu'un sous-espace (dont nous calculerons la dimension) de l'espace total.

 

    * La décomposition spectrale d'une matrice de covariance est en fait sa diagonalisation. Ceci nous amènera à démontrer les faits suivants, importants et bien connus :

        - Les valeurs propres d'une matrice de covariance sont égales aux variances des projections du vecteur aléatoire sur les vecteurs propres de cette matrice de covariance.

        - La direction de projection conduisant à la plus grande valeur de la variance de la projection de x est celle du vecteur propre associé à la plus grande valeur propre de la matrice de covariance.

        - Plus généralement, si les vecteurs propres sont triés par ordre décroissant de leurs valeurs propres, alors la direction orthogonale à {u1, u2, ..., uk}, 

k < p qui maximise la variance projetée de x est uk + 1.

        - Les projections de x sur les vecteurs propres de la matrice de covariance sont des variables décorrélées.

 

    * Nous définirons enfin la transformation de Mahalanobis qui permet de "sphériser" la distribution d'un vecteur aléatoire. Ceci nous conduira à la notion de distance de Mahalanobis d'un vecteur x à une distribution, une variable aléatoire dont nous établirons les propriétés en mettant l'accent sur le cas particulier où x est un vecteur normal multivarié.

 

 

 

 

 

MATRICE DE COVARIANCE

Une matrice de covariance est semidéfinie positive et réciproquement

Une matrice de covariance est semidéfinie positive

Une matrice semidéfinie positive est une matrice de covariance

Matrice de covariance singulière

Distribution dégénérée

Dimension du sous-espace de la distribution

Diagonalisation d'une matrice de covariance

Les valeurs propres sont des variances projetées

Les vecteurs propres sont les directions de plus grande variance projetée

Première Composante Principale

Autres Composantes Principales

Les projections sur les vecteurs propres sont décorrélées

Calcul direct

Par diagonalisation de la matrice de covariance

Distance de Mahalanobis

Sphérisation d'un vecteur aléatoire, transformation de Mahalanobis

Distance de Mahalanobis

Cas général

Cas particulier : vecteur multinormal

TUTORIEL

 

____________________________________________________________

 

Voir aussi :

Matrice définie positive

Analyse en Composantes Principales

Analyse discriminante

Matrice de Corrélation

Covariance

Inertie

Distribution normale bivariée

Distribution normale multivariée

Distance de Mahalanobis

Téléchargez ce Glossaire