Retour vers "Covariance"

Retour vers "Coefficient de Corrélation"

 

 ANIMATION INTERACTIVE: COVARIANCE ET COEFFICIENT DE CORRELATION

 

Cette animation illustre les concepts de Covariance et de Coefficient de Corrélation. 

Nous vous suggérons de regarder dans un premier temps les animations :

    * sur la Matrice de Covariance  .
    * sur la Distribution Normale Bivariée  .

 

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 L'illustration propose un ensemble de points, ainsi que :

    * Sa Covariance,

    * Les Ecart-Types de ses projections sur les axes x et y,

    * Le Coefficient de Corrélation.


Pour rendre plus intuitif le rapport du Coefficient de Corrélation avec la Régression Linéaire Simple, la Droite des Moindres Carrés (DMC) de y sur x est également affichée. Notez que cette droite n'est pas la même que la DMC de x sur y : la Régression n'est pas symétrique en x et y, c'est la raison pour laquelle la notation (x, y) a été préférée ici à (x1, x2 ). Le Coefficient de Corrélation est lui, bien sûr, symétrique en x et y.  

 

* Déplacez les points avec votre souris de façon à ce qu'ils soient approximativement alignés. Observez la valeur du Coefficient de Corrélation. remarquez que cette valeur ne dépend pas de la pente de la droite (sauf pour le signe).

 

* Beaucoup de types de configurations peuvent avoir un Coefficient de Corrélation proche de "0". Par exemple, tout nuage de points ayant vaguement la forme d'un disque est dans cette situation (essayez avec un grand nombre de points).

Cependant, il est facile de construire des configurations ayant des valeurs faibles à modérées du Coefficient de Corrélation, et pour lesquelles il existe clairement un lien très fort (voire déterministe), mais non linéaire entre les variables. Construisez de telles configurations, et notez la valeur faible (et trompeuse) du Coefficient de Corrélation. Jusqu'où pouvez-vous faire descendre cette valeur ?

Un cas particulier est celui où les données peuvent être réparties en "blocs", chaque bloc étant constitué de points très bien alignés. Mais la direction d'alignement peut être différente de bloc à bloc, ou bien les blocs peuvent eux-mêmes ne pas être alignés, le résultat étant un Coefficient de Corrélation "global" faible (alors que sur chacun des blocs, il peut avoir une valeur élevée). Construisez de tels ensembles "linéaires par blocs", et observez les valeurs faibles (et trompeuses) du Coefficient de Corrélation. Jusqu'où pouvez-vous faire descendre le Coefficient de Corrélation avec deux blocs d'égales populations, chacun constitué de points parfaitement alignés ?

Observez également que dans de telles configurations, la Droite des Moindres Carrés ne reflète que très imparfaitement la structure des données. La Régression Linéaire Simple est donc très sensible à la structure des données. Ces configurations "pathologiques" peuvent être détectées visuellement en RLS, mais évidemment pas en Régression Linéaire Multiple, où le problème se pose avec la même acuité. C'est pourquoi il est fréquent, avant d'entreprendre une action de modélisation, de procéder à la détection de blocs homogènes (clustering), et éventuellement de procéder à une modélisation séparée sur chacun des clusters identifiés.

 

En conclusion, une valeur élevée (proche de -1 ou de +1) du Coefficient de Corrélation ne ment jamais. Par contre, une valeur faible ne permet de tirer aucune conclusion, car elle peut recouvrir des réalités très différentes.

 

* Ensembles "verticaux" ou "horizontaux".

L'expression mathématique du Coefficient de Corrélation contient un dénominateur qui s'annule si l'un des deux Ecarts-Type est égal à 0 (ensemble "vertical" ou "horizontal"). Que devient alors le Coefficient de Corrélation ? Le numérateur (Covariance) est alors également nul, et le Coefficient de Corrélation n'est plus défini.
Créez un ensemble de seulement deux points, alignés verticalement. Faites glisser le point supérieur alternativement à droite et à gauche de cette verticale, et observez que le Coefficient de Corrélation passe de façon discontinue de la valeur +1 (point à droite) à la valeur -1 (point à gauche) quand la variance en x de l'ensemble de points atteint la valeur 0

 

* Le Coefficient de Corrélation est très sensible aux points aberrants. Creéz un ensemble compact près d'un des bords de la scène, puis éloignez un des points (point aberrant). Observez la grande sensibilité de la valeur du Coefficient de Corrélation quand vous faites parcourir la scène au point aberrant. Observez également que la DMC tend à "suivre" le point aberrant, et devient donc elle aussi aberrante.

 

* La valeur du Coefficient de Corrélation n'est pas modifiée si on ajoute (ou retranche) une même quantité à toutes les abscisses, et/ou une autre quantité à toutes les ordonnées. Le Coefficient de Corrélation est "invariant par translation".
 Cliquez n'importe où dans l' "intérieur" de l'ensemble de points (mais pas sur un point), puis faites glisser l'ensemble, et observez que la valeur du Coefficient de Corrélation ne change pas (ni, d'ailleurs, la Covariance et les Ecarts-Type).
Le même résultat aurait été obtenu en translatant les axes (pas implémenté).

 

* La valeur (absolue) du Coefficient de Corrélation ne change pas si on multiplie toutes les abscisses par un même facteur, et/ou toutes les ordonnées par un autre facteur. Le Coefficient de Corrélation est invariant (au signe près) par un changement quelconque des unités sur les axes.
Cliquez n'importe où sur la scène à l' "extérieur" de l'ensemble de points, et faites glisser lentement votre souris. Les déformations de l'ensemble de points  correspondent à des changements d'unités sur les axes. Observez que, bien que les valeurs de la Covariance et des Ecarts-Type varient, la valeur du Coefficient de Corrélation reste inchangée...tant que votre souris ne traverse pas un axe, ce qui provoque alors un changement de signe du Coefficient de Corrélation.

 

Retour vers "Covariance"

Retour vers "Coefficient de Corrélation"

Téléchargez ce Glossaire