Corrélation partielle
Deux variables peuvent avoir un Coefficient de Corrélation élévé et pourtant n'avoir entre elles qu'un lien (linéaire) faible. Supposons par exemple qu'une banque découvre que, dans la tranche d'âge 25-60 ans, les deux variables :
* "Age" et
* "Portefeuille d'actions"
sont fortement corrélées positivement. Doit-elle conclure que le désir d'investir en bourse augmente avec l'âge ?
Supposons maintenant qu'une troisième variable, le "Revenu", soit prise en compte. La banque va découper sa population de clients en groupes, tous les individus d'un même groupe ayant approximativement le même revenu. Elle constatera alors que "Âge" et "Portefeuille" tendent, en moyenne, à augmenter avec "Revenus".
Il est alors vraisemblable que, à l'intérieur de chaque groupe de "Revenus", la corrélation entre "Âge" et "Portefeuille" sera beaucoup moins marquée que sur l'ensemble de la population. Ainsi, la corrélation observée entre "Âge" et "Portefeuille" apparaîtra-t-elle comme un conséquence de la tendance à l'augmentation des revenus avec l'âge.
Ce phénomène pernicieux est appelé Corrélation
Partielle, et signifie "Corrélation quand les autres variables sont maintenues
à une valeur constante". L'exemple ci-dessus (et de nombreux autres) montre
que la Corrélation Partielle est plus significative que la Corrélation Totale.
Pour illustrer le concept de Corrélation Partielle,
imaginez un volume obtenu par translation d'un disque circulaire parallèlement
à lui-même conformément à l'image ci-dessous. Puis remplissez ce volume par
une distribution uniforme.
|
|
La projection de cette distribution dans le plan "Âge-Portefeuille" est nettement allongée et bien répartie le long d'une droite (illustration ci-dessous, image du dessus) : ceci se traduira par une valeur élevée du coefficient de corrélation entre Âge et Portefeuille.
Mais, pour toute tranche étroite de Revenu (c'est à dire, pour tous les individus ayant des Revenus comparables), la distribution est uniforme dans une surface quasiment circulaire : à Revenu donné, Âge et Portefeuille sont pratiquement décorrélés (image inférieure dans l'illustration ci-dessous).
Cet exemple un peu académique (mais pas trop) met
en évidence une situation dans laquelle deux variables ont un Coefficient de
Corrélation élevé,
mais une Corrélation Partielle presque nulle. En fait, la forte corrélation
observée est un artefact causé par la troisième variable (Revenu).
Cet exemple ne devrait pas faire croire qu'une corrélation
partielle est toujours plus faible qu'une corrélation "totale" : le contraire peut
également arriver. Pour faire un pas en direction du professionnalisme, nous
nous dispenserons de déguiser l'exemple suivant d'un habillage pseudo-réaliste,
et accepterons son caractère simplement illustratif.
Soit donc une volume ayant la forme d'une ellipse à laquelle on a conféré une certaine épaisseur, et orientée dans l'espace de façon à ce que sa projection sur le plan (x, y) soit circulaire. Puis remplissons cette "tranche" d'une distribution uniforme, comme dans l'illustration ci-dessous.
|
|
Les variables x et y ont une corrélation (totale) nulle par
construction, puisque, dans leur plan, la projection de la distribution remplit
uniformément un disque circulaire. Mais prélevons dans la distribution une
zone correspondant à une valeur de z donnée : cette zone est étroite,
allongée et rectiligne, et traduit donc une corrélation élevée entre x et y pour cette sous-population
(image inférieure de l'illustration ci-dessous).
Nous sommes donc dans une situation inverse de la précédente : les deux variables x et y ont une corrélation totale faible, et une corrélation partielle élevée. La liaison entre x et y est maintenant masquée par la variable z.
______________
Dans les deux cas examinés, nous avons construit des
distributions artificielles, destinées à mettre en évidence la notion de Corrélation
Partielle, et l'évidence trompeuse de la Corrélation Totale. Ce caractère
artificiel se traduisait, entre autres choses, par le fait que le Coefficient de Corrélation
observé dans une sous-population définie par une valeur imposée de la variable
"de contrôle" ne dépendait pratiquement pas de cette valeur.
Bien entendu, dans la réalité, il n'en est pas ainsi : chaque nouvelle
valeur de la variable de contrôle définit une nouvelle sous-population, dans
laquelle est observée une nouvelle valeur de la Corrélation Partielle entre les deux autres
variables.
Or les logiciels de Statistique proposent toujours, pour le "Coefficient de Corrélation Partielle"
de deux variables, une valeur unique. Quel est le sens à donner à cette valeur
?
Il est un cas quasi-réaliste pour lequel la Corrélation Partielle
entre deux variables a effectivement toujours la même valeur, quelles que
soient les valeurs affectées aux autres variables : c'est celui des distributions
multinormales. Rappelons à ce propos que
la forme d'une distribution multinormale est entièrement
définie par les valeurs des Coefficients de Corrélation des variables prises
deux-à-deux. Il est, pour cette raison, universellement accepté d'assimiler
la distribution courante à la distribution multinormale définie par les
Coefficients de Corrélation des variables prises deux-à-deux, et de donner
pour unique valeur du Coefficient de Corrélation Partielle de deux variables
la valeur, non ambiguë, qu'aurait ce coefficient pour la distribution multinormale
"équivalente".
____________________________________________________________
Voir aussi :