Retour vers "Coefficient de Corrélation"
ANIMATION INTERACTIVE: COVARIANCE ET COEFFICIENT DE CORRELATION
Cette animation illustre les concepts de Covariance et de Coefficient de Corrélation.
Nous vous suggérons de regarder dans un premier temps les animations :
* sur la Matrice de Covariance
.
* sur la Distribution
Normale Bivariée
.
|
|
L'illustration propose un ensemble de points, ainsi que :
* Sa Covariance,
* Les Ecart-Types de ses projections sur les axes x et y,
* Le Coefficient de Corrélation.
Pour rendre plus intuitif le rapport du Coefficient
de Corrélation avec la Régression Linéaire Simple, la Droite
des Moindres Carrés (DMC) de y sur x est également affichée. Notez
que cette droite n'est pas la même que la DMC de x sur y : la Régression
n'est pas symétrique en x et y, c'est la raison pour laquelle
la notation (x, y) a été préférée ici à (x1,
x2 ). Le Coefficient de Corrélation est lui, bien sûr,
symétrique en x et y.
* Déplacez les points avec votre souris de façon à ce qu'ils soient approximativement alignés. Observez la valeur du Coefficient de Corrélation. remarquez que cette valeur ne dépend pas de la pente de la droite (sauf pour le signe).
* Beaucoup de types de configurations peuvent avoir un Coefficient de Corrélation proche de "0". Par exemple, tout nuage de points ayant vaguement la forme d'un disque est dans cette situation (essayez avec un grand nombre de points).
Cependant, il est facile de construire des configurations ayant des valeurs faibles à modérées du Coefficient de Corrélation, et pour lesquelles il existe clairement un lien très fort (voire déterministe), mais non linéaire entre les variables. Construisez de telles configurations, et notez la valeur faible (et trompeuse) du Coefficient de Corrélation. Jusqu'où pouvez-vous faire descendre cette valeur ?
Un cas particulier est celui où les données peuvent être réparties en "blocs", chaque bloc étant constitué de points très bien alignés. Mais la direction d'alignement peut être différente de bloc à bloc, ou bien les blocs peuvent eux-mêmes ne pas être alignés, le résultat étant un Coefficient de Corrélation "global" faible (alors que sur chacun des blocs, il peut avoir une valeur élevée). Construisez de tels ensembles "linéaires par blocs", et observez les valeurs faibles (et trompeuses) du Coefficient de Corrélation. Jusqu'où pouvez-vous faire descendre le Coefficient de Corrélation avec deux blocs d'égales populations, chacun constitué de points parfaitement alignés ?
Observez également que dans de telles configurations, la Droite des Moindres Carrés ne reflète que très imparfaitement la structure des données. La Régression Linéaire Simple est donc très sensible à la structure des données. Ces configurations "pathologiques" peuvent être détectées visuellement en RLS, mais évidemment pas en Régression Linéaire Multiple, où le problème se pose avec la même acuité. C'est pourquoi il est fréquent, avant d'entreprendre une action de modélisation, de procéder à la détection de blocs homogènes (clustering), et éventuellement de procéder à une modélisation séparée sur chacun des clusters identifiés.
En conclusion, une valeur élevée (proche de -1 ou de +1) du Coefficient de Corrélation ne ment jamais. Par contre, une valeur faible ne permet de tirer aucune conclusion, car elle peut recouvrir des réalités très différentes.
* Ensembles "verticaux" ou "horizontaux".
L'expression
mathématique du Coefficient de Corrélation contient un dénominateur qui s'annule
si l'un des deux Ecarts-Type est égal à 0 (ensemble "vertical" ou "horizontal").
Que devient alors le Coefficient de Corrélation ? Le numérateur (Covariance)
est alors également nul, et le Coefficient de Corrélation n'est plus défini.
Créez
un ensemble de seulement deux points, alignés verticalement. Faites glisser
le point supérieur alternativement à droite et à gauche de cette verticale,
et observez que le Coefficient de Corrélation passe de façon discontinue de
la valeur +1 (point à droite) à la valeur -1 (point à gauche) quand la variance
en x de l'ensemble de points atteint la valeur 0
* Le Coefficient de Corrélation est très sensible aux points aberrants. Creéz un ensemble compact près d'un des bords de la scène, puis éloignez un des points (point aberrant). Observez la grande sensibilité de la valeur du Coefficient de Corrélation quand vous faites parcourir la scène au point aberrant. Observez également que la DMC tend à "suivre" le point aberrant, et devient donc elle aussi aberrante.
* La valeur du Coefficient de Corrélation n'est pas
modifiée si on ajoute (ou retranche) une même quantité à toutes les abscisses,
et/ou une autre quantité à toutes les ordonnées. Le Coefficient de Corrélation
est "invariant par translation".
Cliquez n'importe où dans
l' "intérieur" de l'ensemble de points (mais pas sur un point), puis
faites glisser l'ensemble, et observez que la valeur du Coefficient de Corrélation
ne change pas (ni, d'ailleurs, la Covariance et les Ecarts-Type).
Le même
résultat aurait été obtenu en translatant les axes (pas implémenté).
* La valeur (absolue) du Coefficient de Corrélation
ne change pas si on multiplie toutes les abscisses par un même facteur, et/ou
toutes les ordonnées par un autre facteur. Le Coefficient de Corrélation
est invariant (au signe près) par un changement quelconque des unités sur
les axes.
Cliquez n'importe où sur la scène à l' "extérieur" de
l'ensemble de points, et faites glisser lentement votre souris. Les déformations
de l'ensemble de points correspondent à des changements d'unités sur les
axes. Observez que, bien que les valeurs de la Covariance et des Ecarts-Type
varient, la valeur du Coefficient de Corrélation reste inchangée...tant que
votre souris ne traverse pas un axe, ce qui provoque alors un changement de
signe du Coefficient de Corrélation.
Retour vers "Coefficient de Corrélation"