Animation interactive

Corrélation  (Coefficient de)

Ce texte suppose connue la notion de Covariance.

 

Une faiblesse de la Covariance est qu'elle n'est pas invariante dans un changement d'unités utilisées pour exprimer les valeurs des deux variables X1 et X2. Par  exemple, la valeur de la Covariance de "Taille" et "Poids" d'une population change si les tailles sont exprimées en pouces au lieu de centimètres, ou les poids sont exprimés en "pounds" au lieu de kilogrammes, alors que la force du lien entre ces deux grandeurs ne dépend évidemment pas des unités utilisées pour les exprimer.

Supposons que l'unité utilisée pour mesurer X1 soit divisée par 2 (et donc que les valeurs de X1 soient multipliées par 2). Alors la covariance Cov(X1, X2) est également multipliée par 2. Mais l'écart-type (racine carrée de la variance) de X1 est également multiplié par 2, et donc le rapport :

Cov(X1, X2) /(Var(X1))1/2

reste inchangé. Le même argument s'applique à X2, et plus généralement, à tout changement d'unités pour la mesure de X1 et de X2. Donc, en toute généralité, le nombre :

 

 

ne dépend pas des unités dans lesquelles X1 et X2 sont exprimées (voir animation  ).

 

Ce nombre s'appelle le Coefficient de Corrélation des variables (X1, X2). Il peut être perçu comme la version standardisée de la Covariance.

 

 Le Coefficient de Corrélation sera noté :

    * r(X1, X2) lorsque les distributions des variables sont connues (ou supposées connues),

    * r(X1, X2) lorsque ces distributions ne sont connues que par un échantillon (voir plus bas).

_______________

 

Quelques propriétés du Coefficient de Corrélation

    * La valeur du Coefficient de Corrélation est toujours comprise entre -1 et +1 :

 

-1 r   +1

 

    * Si X1 = X2 = X, alors Cov(X1, X2 ) = Var(X1) = Var(X2) = Var(X) et donc r(X, X) = +1.

    * Le Coefficient de Corrélation est symétrique : r(X1, X2) = r(X2, X1).

    * Si les variables sont toutes deux de variance unité, leur Covariance et leur Coefficient de Corrélation sont identiques.

_______________

 

    * Quand les distributions de X1 et X2 ne sont connues que par le biais d'un échantillon, l'estimateur le plus courant du Coefficient de Corrélation est :

 


 

Peu de choses sont connues sur cet estimateur, sauf dans le cas où la distribution de (X1, X2) est binormale. On montre alors que r est un estimateur légèrement biaisé inférieurement de r (r tend à sous-estimer r, les variables sont probablement moins corrélées que l'échantillon ne le laisse penser).

De plus, si X1 et X2 sont décorrélées (r = 0) et donc indépendantes (parce que normales), la distribution de r est connue avec une assez bonne précision, et il existe alors un test approximatif de non corrélation (et donc d'indépendance) portant sur l'hypothèse H0 : r = 0.

___________

 

Interpretation du Coefficient de Corrélation

    * r = +1 ou r = -1 implique un lien fonctionnel linéaire entre X1 et X2 . Il existe alors 3 nombres a, b, et c tels que :

aX1 + bX2 + c = 0

Voir illustration ci-dessous.

    * Que peut-on dire d'un Coefficient de Corrélation r  proche de 0 ? On ne peut alors affirmer que le lien entre X1 et X2 est faible que si ce lien est linéaire (voir image inférieure de l'illustration ci-dessous).

 

 

 

 

 

Mais il est possible qu'un lien fort, mais non linéaire entre X1 et X2 conduise à une valeur faible du Coefficient de Corrélation, comme le montre l'image inférieure de l'illustration ci-dessous.

 

 

 

 

Donc en l'absence de certitude sur la linéarité du lien entre X1 et X2, il n'est pas possible de tirer de conclusion d'une faible valeur du Coefficient de Corrélation. On dit parfois que le Coefficient de Corrélation ne représente que la "partie linéaire" du lien entre X1 et X2.

 

Deux variables dont le Coefficient de Corrélation a une valeur proche de 0 sont dites décorrélées.

La décorrélation ne doit pas être confondue avec l'indépendance authentique :

    * Deux variables indépendantes sont décorrélées,

    * Mais deux variables décorrélées peuvent ne pas du tout être indépendantes (voir l'exemple ci-dessus, et également l'animation interactive ). Ce n'est que dans le cas où la variables sont toutes deux normales et de distribution conjointe binormale que "décorrélation" implique "indépendence" : deux variables normales décorrélées et de distribution conjointe binormale sont indépendantes.

 

Donc, dans le cas général, la notion d'indépendance est beaucoup plus forte que celle de décorrélation.

_____________________________

 

La Régression Linéaire Simple est intimement liée à la notion de Coefficient de Corrélation. En particulier si les deux variables sont de variances identiques (par exemple, après standardisation), alors la pente de l'unique droite de régression est égale au Coefficient de Corrélation.

 _____________________________

 

Malgré sa grande popularité et son caractère intuitif, le concept de Corrélation n'est simple qu'en apparence :

 

    1) Un fort Coefficient de Corrélation est souvent perçu comme révélant une relation causale entre les deux variables. Cette conclusion est totalement injustifiée. Par exemple, les deux évènements représentés par les variables X1 et X2  peuvent avoir simplement une cause commune.

Voici un exemple classique d'une telle interprétation erronée. Une compagnie d'assurance a détecté une forte corrélation positive entre :

    * Le nombre de pompiers présents sur le site d'un incendie,

    * et le montant des remboursements qui lui sont réclamés.

 

Doit-elle en conclure que les pompiers sont des gens néfastes car "plus il y a de pompiers, et plus ça nous coûte cher" ? Evidemment non.

Si maintenant une troisième variable X3 est prise en compte, à savoir "L'importance de l'incendie", il devient clair que malgré leur forte corrélation positive, il n'y a pas de relation causale entre le nombre de pompiers et l'importance des remboursements, et que ces deux variables ont simplement une cause commune, l'importance de l'incendie.

 

Cette idée est formalisée dans la notion de Corrélation Partielle, dont l'importance justifie un traitement séparé.

 

    2) Une faible valeur du Coefficient de Corrélation ne suffit pas à conclure à l'absence de lien entre les deux variables considérées.

        * Premièrement, comme déjà mentionné, parce que cette faible valeur peut cacher un lien fort mais non linéaire.

        * Ensuite, parce que si plus de deux variables sont considérées simultanément, la force du lien entre deux des variables est mieux représenté par leur Coefficient de Corrélation Partielle que par leur Coefficient de Corrélation (dit alors "Total"), et que les deux peuvent avoir des valeurs très différentes.

 

    3) Grand nombre de variables

        Supposons que soient calculés les Coefficients de Corrélation d'un grand nombre de variables prises deux-à-deux, et ce sur un nombre relativement restreint d'individus. On peut montrer (et il est intuitif) qu'il est probable qu'apparaîtra une forte valeur d'au moins un de ces Coefficients de Corrélation sous le seul effet du hasard, et ce même si les variables sont faiblement corrélées. Le Coefficient de Corrélation empirique est en effet une variable aléatoire qui peut "accidentellement" prendre une forte valeur, évènement dont la probabilité augment très vite avec le nombre de variables.

Lorsqu'on considère une grande Matrice de Corrélation, il est alors important de se méfier des fortes valeurs des Coefficients de Corrélation

 _________________________

 

Coefficient de Corrélation Multiple

La notion de Coefficient de Corrélation se généralise à la situation suivante. On dispose :

    * D'une variable Y,

    * Et d'un ensemble de variables {X1, X2 , ..., Xn}.

 

La force de la partie linéaire du lien entre Y et {X1, X2 , ..., Xn} est mesurée par un nombre appelé Coefficient de Corrélation Multiple.      .

____________________________________________________________

 

Voir aussi :

Régression Linéaire Simple

Covariance

Coefficient de Corrélation Partielle

Coefficient de Corrélation Multiple

Distribution normale bivariée

 

Téléchargez ce Glossaire