Collinéarité

Un ensemble de variables est dit exhiber le phénomène de collinéarité si certaines de ces variables sont approximativement, ou pire, exactement, des combinaisons linéaires d'autres variables. La collinéarité est donc un signe de redondance linéaire dans les données. Dans un jeu de variables exhibant une forte collinéarité, il est impossible d'éviter les fortes corrélations entre certaines paires de variables.

La collinearité apparaît lorsqu'on augmente inconsidérément le nombre de variables prises en compte pour décrire une situation. La description de cette situation n'exigeant qu'une quantité finie d'information, ajouter sans limite de nouvelles variables ne fait qu'ajouter de l'information déjà présente dans les premières variables.

 

Mais après tout, où est le mal ? Cela ne peut certainement pas nuire d'avoir plusieurs fois la même information dans un jeu de données.

 

En fait, la collinearité est une véritable malédiction pour toute technique prédictive linéaire dans les variables. Ses conséquences sont :

    * Une instabilité des valeurs numériques des paramètres de modèle, qui en rendent l'interprétation impossible.

    * Une instabilité du modèle lui-même, dont les prédictions deviennent peu fiables.

    * Des erreurs numériques dans les calculs de diverses grandeurs, dont les paramètres eux-mêmes, habituellement en raison de dénominateurs prenant de très petites valeurs.
 

________________________

 

Il existe beaucoup de façons de combattre la collinéarité.

    * La plus élémentaire est de réduire le nombre de prédicteurs pris en compte dans la construction du modèle (voir par exemple en Régression Linéaire Multiple).

    * Mais même une fois le choix des prédicteurs effectué, d'autres actions peuvent encore être entreprises. Par exemple la Régression Ridge combat la collinéarité en Régression Linéaire Multiple. A nombre de prédicteurs donné, ces techniques ont en commun de réduire le nombre "effectif" de paramètres du modèle, par opposition à leur nombre réel, grâce à des contraintes imposées au valeurs que peuvent prendre ces paramètres.

    * La création de nouveaux prédicteurs décorrélés par construction (p. ex. par une ACP sur les variables originales).

 

" Collinéarité" s'écrit aussi, très logiquement "colinéarité" (co-linéarité). L'orthographe utilisant le double "l" découle probablement de l'usage qui fait universellement écrire "corrélation", et non "corelation" (co-relation).

Téléchargez ce Glossaire