|
Animation interactive |
Covariance (Matrice de)
La variance d'une variable aléatoire est une mesure de la dispersion des valeurs prises par cette variable autour de sa moyenne.
La matrice de covariance generalise le concept de variance aux vecteurs aléatoires (ensembles de variables aléatoires).
Soit x = {X1, X2, ..., Xp} un vecteur aléatoire de vecteur moyen µ = {µ1, µ2, ..., µp}.
* La dispersion de chacune des Xi autour de sa moyenne est mesurée par sa variance. Rappelons que la variance d'une v.a. est identique à la covariance de cette variable avec elle-même.
* La covariance Cov(Xi, Xj ) de la paire {Xi, Xj } est une mesure du couplage linéaire entre ces deux variables.
Ces grandeurs (en association avec le vecteur moyen) définissent complètement la structure de la distribution de probabilité conjointe de {X1, X2, ..., Xp} jusqu'à l'ordre 2, de même que la moyenne et la variance d'une v.a. définissent complètement sa distribution jusqu'à l'ordre 2.
Il est habituel de regrouper ces nombres dans un tableau carré appelé Matrice de Covariance de la distribution selon le schéma suivant :

Une matrice de covariance est souvent notée
.
*
ij est
la covariance de Xi et Xj
.
*
ii est
la covariance de Xi avec
elle-même, et est donc sa variance
i².
Les éléments diagonaux d'une matrice de covariance sont donc les variances des
variables composant le vecteur aléatoire .
De même que la variance d'une v.a. X est définie par :
Var(X) = E[(X - µ)²]
la matrice de covariance d'un vecteur aléatoire est définie de façon formelle par :
|
|
dont on vérifie facilement l'équivalence avec la définition informelle donnée ci-dessus.
-----
De même que :
Var(X) = E[X²] - E[X]²
pour une variable aléatoire, on vérifie aisément que pour un vecteur aléatoire x :
|
|
______________
Si toutes les variables sont standardisées, la matrice de covariance est identique à la Matrice de Corrélation.
La matrice de covariance d'un vecteur aléatoire n'est pas une quantité intrinsèque attachée à sa distribution : elle dépend du repère dans lequel elle a été calculée. Nous verrons ci-dessous qu'il existe des repères dans lesquels la matrice de covariance prend une forme particulièrement simple et utile.
La distribution normale multivariée (ou "distribution multinormale") joue un rôle central en modélisation car les données réelles ont souvent une distribution au moins approximativement multinormale.
Rappelons que la distribution normale multivariée est entièrement déterminée par son vecteur moyen et sa matrice de covariance. Il est donc équivalent de dire :
* La théorie suivante suppose que les données ont une distribution multinormale.
* La théorie suivante s'applique à toute distribution, mais n'est développée que jusqu'à l'ordre 2.
C'est par exemple l'approche choisie par l'Analyse Discriminante.
Nous avons défini la matrice de covariance d'une distribution multivariée. Mais la même définition s'applique à un échantillon issu de cette distribution (comme pour le cas univarié). Les termes "variance" et "covariance" doivent simplement être remplacés par "variance empirique" et "covariance empirique". La matrice ainsi obtenue est alors appelée "matrice de covariance empirique" ou "matrice de covariance de l'échantillon".
Soit X la matrice d'un échantillon centré de taille n :

* Le premier tirage depuis la distribution a fourni une première réalisation du vecteur aléatoire dont les coordonnées constituent la première ligne de X.
* Le deuxième tirage depuis la distribution a fourni une deuxième réalisation du vecteur aléatoire dont les coordonnées constituent la seconde ligne de X.
* ...
et on effectue n tirages, de sorte que nous avons un échantillon de taille n.
On voit alors aisément que la matrice de covariance
empirique
est
égale à 1/n fois le produit de X par sa transposée :

|
X'X = n |
L'illustration ci-dessus représente le cas le plus courant où le nombre d'observations n est supérieur au nombre de variables.
La matrice de covariance n'est pas simplement un moyen commode de représenter des données. C'est également une matrice au sens mathématique du terme, et qui possède d'importantes propriétés découlant du fait qu'une matrice de covariance est toujours semidéfinie positive.
La réciproque est également vraie : toute matrice semidéfinie positive est la matrice de covariance d'un vecteur aléatoire (en fait, d'une infinité).
En particulier, la décomposition spectrale de la matrice de covariance d'un vecteur aléatoire x montre que :
* Il existe une base orthonormée
dans laquelle la matrice de covariance
de x est diagonale. Les axes de cette base s'appellent
les Composantes Principales de
(ou de la distribution de x).
* Les éléments hors-diagonale de cette nouvelle matrice étant nuls, les nouvelles variables définies par cette nouvelle base (les projections de x sur les Composantes Principales) sont décorrélées.
* Les éléments diagonaux de
cette matrice diagonale sont égaux aux valeurs propres correspondantes
de
.
Ainsi, les variances des projections de x sur les Composantes
Principales sont égales aux valeurs propres correspondantes de
.
* Si les unités sont changées sur les Composantes Principales de façon à ce que les projections de x sur celles-ci aient toutes la même variance, la distribution est dite "sphérisée" (ce qui est un abus de langage, la distribution n'étant pas à proprement parler à symétrie sphérique) : les variables marginales sont maintenant standardisées et décorrélées.
Si un changement d'unités sur les axes
originaux fait que ceux-ci transportent la même variance (par exemple
en standardisant les données), la distribution
résultante, bien qu'ayant la même variance sur tous les axes, n'est pas sphérisée
: les variables marginales sont corrélées. Vous pourrez vous en rendre compte dans l'animation
ci-dessous.
__________________________________________________________
Ces remarques sont le point de départ de l'Analyse en Composantes Principales (ACP).
Elles sont illustrées par l'animation interactive suivante.
Cette animation illustre le concept de Matrice de Covariance.
|
|
Cadre supérieur
Cadre inférieur Les axes verts (x', y') du cadre supérieur ont subi une rotation qui les amène dans les positions horizontale et verticale familières. Le nuage de points et l'ellipse ont subi la même rotation. Les axes de l'ellipse sont maintenant respectivement horizontal et vertical, mais l'ellipse a exactement la même forme et la même taille que l'ellipse du cadre supérieur. Rappelons que x' est la direction d'élongation maximale du nuage. Celui-ci semble donc être étiré horizontalement (mais sa forme est en fait identique à celle du nuage du cadre supérieur). De même, y' est la direction d'élongation minimale. Le nuage inférieur semble être "écrasé" dans la direction y'. Matrice de Covariance A droite du cadre supérieur est la Matrice de Covariance du nuage de points. * Elements diagonaux Ce sont les variances des projections du nuage respectivement sur l'axe horizontal x et l'axe vertical y. * Elements non diagonaux Ils sont égaux (la matrice est dit "symétrique"), et leur valeur commune est Cov(x, y) = Cov(y, x). Matrice de Covariance diagonalisée A la droite du cadre inférieur est la "Matrice de Covariance diagonalisée". C'est la Matrice de Covariance du nuage du cadre inférieur. * Elements diagonaux Ce sont les variances des projections du nuage respectivement sur l'axe horizontal x' et l'axe vertical y'. * La première valeur est la plus grande variance observable d'une projection du nuage sur un axe. Remarquez que cette valeur est supérieure aux variances lues dans la Matrice de Covariance. Dans le vocabulaire de l'Algèbre Linéaire (et de l'ACP), cette valeur est la Première Valeur Propre de la Matrice de Covariance initiale. La longueur du demi grand-axe de l'ellipse est égale à la racine carrée de cette Première Valeur Propre. Elle est représentée par un segment orange horizontal. * La seconde valeur est la plus petite variance observable d'une projection du nuage sur un axe. Remarquez que cette valeur est inférieure aux variances dans la Matrice de Covariance. Cette valeur est la Seconde Valeur Propre de la Matrice de Covariance initiale. La longueur du demi petit-axe de l'ellipse est égale à la racine carrée de cette seconde valeur propre. Elle est représentée par un segment orange vertical. * La somme des deux variances de la Matrice de Covariance est égale (aux erreurs d'arrondi près) à la somme des variances de la Matrice de Covariance diagonalisée. Ceci est d'une part un théorème d'Algèbre Linéaire (la "trace" d'une matrice carrée est invariante dans un changement de repère orthonormé). D'autre part, cette somme reçoit en ACP une interprétation indépendante de tout système de référence.
* Elements non diagonaux Les deux éléments non diagonaux sont nuls (et en particulier, la matrice est donc symétrique). Ceci s'interprète de la façon suivante "x' et y' ont une covariance nulle, et sont donc décorrélées". Ceci peut se démontrer, mais est intuitif : en se déplaçant le long de l'axe x', la quantité y' ne montre aucune tendance systématique à l'augmentation ou à la diminution. La mise en évidence d'une telle tendance est la raison d'être de la covariance, et donc "absence de tendance" conduit naturellement à "covariance nulle". Animation Dans le cadre supérieur, déplacez les points rouges avec votre souris, et observez les changements :
Dans le "cas général", le nuage de points a une forme quelque peu allongée qui fait des angles non nuls avec x et y.
En général, ces deux droites sont assez proches
l'une de l'autre, mais elles ne coïncident pas. Dans les textes anciens,
la Première Composante Principale était parfois appelée "Droite
de Régression Orthogonale".
Ceci provoque des changements brutaux d'orientation des axes quand ceux-ci passent par la position verticale (x') ou horizontal (y'), avec une discontinuité dans la représentation du nuage de points dans le cadre inférieur. |
__________________________________________________
Autres animations :
__________________________________________________________________
|
Tutoriel |
Ce Tutoriel aborde quelques propriétés des matrices de covariance.
* Nous montrons qu'une matrice de covariance est toujours semidéfinie positive, et inversement, que toute matrice semidéfinie positive est la matrice de covariance d'un vecteur aléatoire (en fait, d'une infinité).
* Lorsqu'une matrice de covariance n'est que semidéfinie positive au lieu d'être définie positive, nous montrerons que la distribution du vecteur aléatoire est dégénérée : elle n'occupe qu'un sous-espace (dont nous calculerons la dimension) de l'espace total.
* La décomposition spectrale d'une matrice de covariance est en fait sa diagonalisation. Ceci nous amènera à démontrer les faits suivants, importants et bien connus :
- Les valeurs propres d'une matrice de covariance sont égales aux variances des projections du vecteur aléatoire sur les vecteurs propres de cette matrice de covariance.
- La direction de projection conduisant à la plus grande valeur de la variance de la projection de x est celle du vecteur propre associé à la plus grande valeur propre de la matrice de covariance.
- Plus généralement, si les vecteurs propres sont triés par ordre décroissant de leurs valeurs propres, alors la direction orthogonale à {u1, u2, ..., uk},
k < p qui maximise la variance projetée de x est uk + 1.
- Les projections de x sur les vecteurs propres de la matrice de covariance sont des variables décorrélées.
* Nous définirons enfin la transformation de Mahalanobis qui permet de "sphériser" la distribution d'un vecteur aléatoire. Ceci nous conduira à la notion de distance de Mahalanobis d'un vecteur x à une distribution, une variable aléatoire dont nous établirons les propriétés en mettant l'accent sur le cas particulier où x est un vecteur normal multivarié.
MATRICE DE COVARIANCE
|
Une matrice de covariance est semidéfinie positive et réciproquement Une matrice de covariance est semidéfinie positive Une matrice semidéfinie positive est une matrice de covariance Matrice de covariance singulière Distribution dégénérée Dimension du sous-espace de la distribution Diagonalisation d'une matrice de covariance Les valeurs propres sont des variances projetées Les vecteurs propres sont les directions de plus grande variance projetée Première Composante Principale Autres Composantes Principales Les projections sur les vecteurs propres sont décorrélées Calcul direct Par diagonalisation de la matrice de covariance Distance de Mahalanobis Sphérisation d'un vecteur aléatoire, transformation de Mahalanobis Distance de Mahalanobis Cas général Cas particulier : vecteur multinormal |
||
|
TUTORIEL |
||
____________________________________________________________
Voir aussi :
|