
ANIMATION INTERACTIVE: MATRICE DE COVARIANCE
Cette animation illustre le concept de Matrice de
Covariance.
|
Le "Livre des Animations" sur votre ordinateur
|

|
Cadre supérieur
- Le cadre supérieur montre un échantillon (points
rouges) ainsi qu'un repère (x, y). Son barycentre est marqué
d'une croix noire.
- Une ellipse bleue et deux axes verts (que nous
appellerons par la suite x'
et y' ) qui sont respectivement les directions du grand et du
petit axe de l'ellipse.
- Le grand axe de l'ellipse est tel que la
projection (orthogonale) de l'échantillon sur cet axe présente
la plus grande variance possible. Aucun autre axe ne produira de projection
ayant une variance supérieure. En particulier, les projections sur les
axes originaux
x et y ont des variances inférieures à celle observée
sur x'. En termes intuitifs, le nuage de points est plus
étiré dans la direction x' que dans n'importe quelle autre direction.
Dans
le vocabulaire de l'Analyse en Composantes Principales
ACP), x' est la Première Composante Principale
du nuage.
- Le petit axe y' de l'ellipse
est défini comme étant la direction orthogonale à x'. C'est la
Seconde Composante Principale du nuage. On montre que la variance
de la projection du nuage sur cet axe est la plus petite possible. En
particulier, les projections sur les axes originaux
x et y ont des variances supérieures à celle observée
sur y'. En termes intuitifs, le nuage de points est moins étiré
dans la direction y' que dans n'importe quelle autre direction.
- Pourquoi l'ellipse ? Elle ne joue aucun rôle
actif dans l'animation, et n'est présente que comme aide visuelle. Elle
matérialise cependant un fait important. La Matrice de Covariance n'est
qu'une description sommaire de la forme et de l'orientation du nuage
de points, car elle ne prend en compte que les moments du second ordre
de ce nuage (variances sur x et y et covariance), à l'exclusion
des moments d'ordre supérieur. Deux nuages de points peuvent donc être
sensiblement différents, et pourtant avoir des Matrices de Covariance
identiques.
Le concept de Matrice de Covariance s'étend aux distributions
(et pas seulement à des échantillons finis). Les mêmes limitations de
la Matrice de Covariance comme descripteur d'un nuage de points s'appliquent
au cas de la description des distributions. Il existe cependant une
exception très importante : si la distribution est connue comme étant
multinormale, alors la Matrice de Covariance la spécifie complètement
(à l'exception de la position de la moyenne).
Les distributions multinormales
ont la propriété importante suivante : la densité selon toute direction
est normale. C'est à ce stade qu'intervient l'ellipse :
- Imaginez la seule et unique distribution
binormale ayant la même Matrice de Covariance que le nuage de points,
et centrée sur son barycentre..
- La densité le long de toute ligne
passant par le barycentre est normale.
- Alors cette ligne intersecte l'ellipse
à exactement un écart-type du barycentre.
Beaucoup de techniques de modélisation reposent uniquement
sur les moyennes et les matrices de coavariance (la plus connue étant l'Analyse
Discriminante). On lit alors souvent "La distribution est supposée
être multinormale". Ce que cette phrase veut dire est en fait "La
technique décrite ci-dessous ne prend en compte que les moments du premier et
du second ordre de la ou des distribution(s), à l'exclusion des moments d'ordres
supérieurs".
Cadre inférieur
Les
axes verts (x', y') du cadre supérieur
ont subi une rotation qui les amène dans les positions horizontale et verticale
familières. Le nuage de points et l'ellipse ont subi la même rotation. Les axes
de l'ellipse sont maintenant respectivement horizontal et vertical, mais
l'ellipse a exactement la même forme et la même taille que l'ellipse du cadre
supérieur.
Rappelons que x' est la direction d'élongation
maximale du nuage. Celui-ci semble donc être étiré horizontalement (mais sa
forme est en fait identique à celle du nuage du cadre supérieur).
De même, y' est la direction d'élongation minimale.
Le nuage inférieur semble être "écrasé" dans la direction y'.
Matrice de Covariance
A
droite du cadre supérieur est la Matrice de Covariance du nuage de points.
Elements diagonaux
Ce
sont les variances des projections du nuage respectivement sur l'axe horizontal
x et l'axe vertical y.
Elements non diagonaux
Ils
sont égaux (la matrice est dit "symétrique"), et leur valeur commune
est Cov(x, y) = Cov(y, x).
Matrice de Covariance diagonalisée
A
la droite du cadre inférieur est la "Matrice de Covariance diagonalisée".
C'est la Matrice de Covariance du nuage du cadre inférieur.
Elements diagonaux
Ce
sont les variances des projections du nuage respectivement sur l'axe horizontal
x' et l'axe vertical y'.
*
La première valeur est la plus grande variance observable d'une projection du
nuage sur un axe. Remarquez que cette valeur est supérieure aux variances lues
dans la Matrice de Covariance. Dans le vocabulaire de l'Algèbre Linéaire (et
de l'ACP), cette valeur est la Première Valeur Propre de la Matrice de
Covariance initiale.
La longueur du demi grand-axe de l'ellipse est égale
à la racine carrée de cette Première Valeur Propre. Elle est représentée par
un segment orange horizontal.
*
La seconde valeur est la plus petite variance observable d'une projection du
nuage sur un axe. Remarquez que cette valeur est inférieure aux variances
dans la Matrice de Covariance. Cette valeur est la Seconde Valeur Propre
de la Matrice de Covariance initiale.
La longueur du demi petit-axe de l'ellipse est égale
à la racine carrée de cette seconde valeur propre. Elle est représentée
par un segment orange vertical.
*
La somme des deux variances de la Matrice de Covariance est égale (aux erreurs
d'arrondi près) à la somme des variances de la Matrice de Covariance diagonalisée.
Ceci est d'une part un théorème d'Algèbre Linéaire (la "trace" d'une
matrice carrée est invariante dans un changement de repère orthonormé). D'autre
part, cette somme reçoit en ACP une interprétation indépendante de tout système de référence.
Elements non diagonaux
Les
deux éléments non diagonaux sont nuls (et en particulier, la matrice
est donc symétrique). Ceci s'interprète de la façon suivante "x' et y' ont
une covariance nulle, et sont donc décorrélées".
Ceci peut se démontrer, mais est intuitif : en se déplaçant le long de l'axe
x', la quantité y' ne montre aucune tendance systématique à l'augmentation
ou à la diminution. La mise en évidence d'une telle tendance est la raison d'être
de la covariance, et donc "absence de tendance" conduit naturellement
à "covariance nulle".
Animation
Dans
le cadre supérieur, déplacez les points rouges avec votre souris, et observez
les changements :
- Des directions des axes verts (et donc de
l'ellipse).
- Des position, taille et applatissement de
l'ellipse.
- Des valeurs de variances selon
x, y, x' and y'.
- De la covariance Cov(x,
y).
- La somme des éléments diagonaux (aussi bien
de la Matrice de Covariance que de la Matrice de Covariance Diagonalisée).
Dans le "cas général", le nuage de points
a une forme quelque peu allongée qui fait des angles non nuls avec
x et y.
- Eloignez les points du barycentre, tout en conservant
l'aspect général du nuage. La somme des éléments diagonaux augmente : elle peut être
perçue comme une mesure de l'étendue globale du nuage.
- Rendez les axes de l'ellipse horizontal et vertical.
Le nuage devient identique au nuage du cadre inférieur. Vous avez manuellement
identifié les Composantes Principales du nuage courant. Notez que la covariance
est alors nulle.
- Créez plusieurs configurations telles que l'ellipse
ait toujours à peu près la même forme, mais des orientations différentes.
L'ellipse inférieure reste inchangée, mais la Covariance change. La Covariance
n'est pas simplement une mesure de l'élongation du nuage, mais est
influencée par son orientation. Ce n'est pas une propriété géométrique
du nuage de points (à l'inverse de la somme des éléments diagonaux, qui est invariante dans
une rotation du nuage).
En particulier, la covariance est nulle quand
le grand axe est soit vertical, soit horizontal.
- Rendez l'ellipse presque circulaire. Les axes
verts (et par conséquent, le nuage inférieur) deviennent très instables.
La Covariance est presque nulle. Les variances en x et y sont
presque égales, et égales aux valeurs propres (elles-mêmes égales).
Toute
direction est "presque" une Composante Principale. La notion même
de Composante Principale perd son sens. La situation est dite dégénérée.
- Rendez l'ellipse très allongée, et faisant des
angles non nuls avec x et y. Le grand axe de l'ellipse ressemble
à la droite de Régression de y sur
x. Mais il n'est pas la droite de Régression.
- On montre que la Première Composante Principale
minimise la somme des carrés des distances des points à la Composante,
les distances étant mesurées perpendiculairement à la CP.
- Alors que la régression minimise la somme
des carrés des distances des points à la droite de régression, les distances
étant mesurées parallèlement à l'axe y.
En général, ces deux droites sont assez proches
l'une de l'autre, mais elles ne coïncident pas. Dans les textes anciens,
la Première Composante Principale était parfois appelée "Droite
de Régression Orthogonale".
Un mot à propos des axes verts. Leurs directions sont définies
sans ambiguïté, mais leur orientations sont arbitraires. Cette animation a choisi
des orientations telles que :
* Les valeurs croissantes
de x' vont toujours vers la droite.
* Les valeurs
croissantes de y' vont toujours vers le haut.
Ceci provoque des changements brutaux d'orientation des axes
quand ceux-ci passent par la position verticale (x') ou horizontal (y'),
avec une discontinuité dans la représentation du nuage de points dans le cadre
inférieur.
__________________
Autres animations :
|
Inertie
|

|
|
Distribution normale bivariée
|

|
|

|
Téléchargez
ce Glossaire
|

|