Corrélation partielle

Deux variables peuvent avoir un Coefficient de Corrélation élévé et pourtant n'avoir entre elles qu'un lien (linéaire) faible. Supposons par exemple qu'une banque découvre que, dans la tranche d'âge 25-60 ans, les deux variables :

    * "Age" et

    * "Portefeuille d'actions"

 

sont fortement corrélées positivement. Doit-elle conclure que le désir d'investir en bourse augmente avec l'âge ?

 

Supposons maintenant qu'une troisième variable, le "Revenu", soit prise en compte. La banque va découper sa population de clients en groupes, tous les individus d'un même groupe ayant approximativement le même revenu.  Elle constatera alors que "Âge" et "Portefeuille" tendent, en moyenne, à augmenter avec "Revenus".

Il est alors vraisemblable que, à l'intérieur de chaque groupe de "Revenus", la corrélation entre "Âge" et "Portefeuille" sera beaucoup moins marquée que sur l'ensemble de la population. Ainsi, la corrélation observée entre "Âge" et "Portefeuille" apparaîtra-t-elle comme un conséquence de la tendance à l'augmentation des revenus avec l'âge.


Ce phénomène pernicieux est appelé Corrélation Partielle, et signifie "Corrélation quand les autres variables sont maintenues à une valeur constante". L'exemple ci-dessus (et de nombreux autres) montre que la Corrélation Partielle est plus significative que la Corrélation Totale.
 

Pour illustrer le concept de Corrélation Partielle, imaginez un volume obtenu par translation d'un disque circulaire parallèlement à lui-même conformément à l'image ci-dessous. Puis remplissez ce volume par une distribution uniforme.
 
 

                      

 

La projection de cette distribution dans le plan "Âge-Portefeuille" est nettement allongée et bien répartie le long d'une droite (illustration ci-dessous, image du dessus) : ceci se traduira par une valeur élevée du coefficient de corrélation entre Âge et Portefeuille.

Mais, pour toute tranche étroite de Revenu (c'est à dire, pour tous les individus ayant des Revenus comparables), la distribution est uniforme dans une surface quasiment circulaire : à Revenu donné, Âge et Portefeuille sont pratiquement décorrélés (image inférieure dans l'illustration ci-dessous).

 

 

                                                       

 

 Cet exemple un peu académique (mais pas trop) met en évidence une situation dans laquelle deux variables ont un Coefficient de Corrélation élevé, mais une Corrélation Partielle presque nulle. En fait, la forte corrélation observée est un artefact causé par la troisième variable (Revenu).
 

Cet exemple ne devrait pas faire croire qu'une corrélation partielle est toujours plus faible qu'une corrélation "totale" : le contraire peut également arriver. Pour faire un pas en direction du professionnalisme, nous nous dispenserons de déguiser l'exemple suivant d'un habillage pseudo-réaliste, et accepterons son caractère simplement illustratif.
 

Soit donc une volume ayant la forme d'une ellipse à laquelle on a conféré une certaine épaisseur, et orientée dans l'espace de façon à ce que sa projection sur le plan (x, y) soit circulaire. Puis remplissons cette "tranche" d'une distribution uniforme, comme dans l'illustration ci-dessous.

 

 

 

 

Les variables x et y ont une corrélation (totale) nulle par construction, puisque, dans leur plan, la projection de la distribution remplit uniformément un disque circulaire. Mais prélevons dans la distribution une zone correspondant à une valeur de z donnée : cette zone est étroite, allongée et rectiligne, et traduit donc une corrélation élevée entre x et y pour cette sous-population (image inférieure de l'illustration ci-dessous).

 

 

 

 

Nous sommes donc dans une situation inverse de la précédente : les deux variables x et y ont une corrélation totale faible, et une corrélation partielle élevée. La liaison entre x et y est maintenant masquée par la variable z

______________

 

Dans les deux cas examinés, nous avons construit des distributions artificielles, destinées à mettre en évidence la notion de Corrélation Partielle, et l'évidence trompeuse de la Corrélation Totale. Ce caractère artificiel se traduisait, entre autres choses, par le fait que le Coefficient de Corrélation observé dans une sous-population définie par une valeur imposée de la variable "de contrôle" ne dépendait pratiquement pas de cette valeur. Bien entendu, dans la réalité, il n'en est pas ainsi : chaque nouvelle valeur de la variable de contrôle définit une nouvelle sous-population, dans laquelle est observée une nouvelle valeur de la Corrélation Partielle entre les deux autres variables.
 

Or les logiciels de Statistique proposent toujours, pour le "Coefficient de Corrélation Partielle" de deux variables, une valeur unique. Quel est le sens à donner à cette valeur ?
Il est un cas quasi-réaliste pour lequel la Corrélation Partielle entre deux variables a effectivement toujours la même valeur, quelles que soient les valeurs affectées aux autres variables : c'est celui des distributions multinormales. Rappelons à ce propos que la forme d'une distribution multinormale est entièrement définie par les valeurs des Coefficients de Corrélation des variables prises deux-à-deux. Il est, pour cette raison, universellement accepté d'assimiler la distribution courante à la distribution multinormale définie par les Coefficients de Corrélation des variables prises deux-à-deux, et de donner pour unique valeur du Coefficient de Corrélation Partielle de deux variables la valeur, non ambiguë, qu'aurait ce coefficient pour la distribution multinormale "équivalente".

____________________________________________________________

 

Voir aussi :

Covariance

Coefficient de Corrélation

Coefficient de Corrélation Multiple

 

Téléchargez ce Glossaire