Indépendantes (Variables)

Ce mot a deux significations différentes.

    1) En modélisation prédictive, les variables explicatives (ç.à.d. figurant en entrée du modèle) sont parfois appelées "variables indépendantes", la variable "à expliquer" étant alors appelée "variable dépendante". Rappelons qu'en modélisation descriptive, il n'est pas fait de distinction entre variables.
 

    2) En statistique, deux variables x1 et x2 sont dites indépendantes si la connaissance de la valeur que prend  x1 (pour un individu donné) n'apporte aucune information sur la valeur que peut prendre x2 pour cet individu, et réciproquement. Autrement dit, la valeur de x1 étant fixée, la distribution des valeurs observées pour x2 est toujours la même, et ce quelle que soit la valeur de x1 (et réciproquement).

Les modèles construits sont d'autant plus stables (et donc crédibles) que les variables en entrée se rapprochent de la condition d'indépendance. Il est donc souhaitable de n'utiliser en entrée que des variables "aussi indépendantes les unes des autres" que possible, quitte à transformer, dans ce but, les variables originales. Les techniques de réduction de dimensionalité produisent des nouvelles variables en nombre réduit, et "plus indépendantes" les unes des autres que les variables originales.
 

C'est ce que fait en particulier l'ACP, qui génère des variables décorrélées (les Composantes Principales), c'est à dire dont les coefficients de corrélations deux à deux sont nuls. Rappelons que décorrélation ne veut pas dire "indépendance" : deux variables indépendantes (l'une de l'autre) sont décorrélées, mais deux variables décorrélées peuvent parfaitement avoir entre elles un fort lien de dépendance (voir ici).

 

Note : Il existe maintenant des techniques plus puissantes que l'ACP qui produisent des variables non seulement simplement décorrélées, mais authentiquement indépendantes (Independant Component Analysis, ou ICA). Nous vous en dirons plus sur cette question dès qu'un éditeur mettra sur le marché des versions commerciales de ces techniques extrêmement puissantes. 

 

______________

Indicatrices

Dans une base de données, une variable nominale est en général représentée par ses modalités, qui sont des grandeurs non numériques. Par exemple, la Catégorie SocioProfessionnelle (CSP) pourra avoir quatre modalités "Artisan", "Employé", "Cadre" et "Agriculteur" (image supérieure). Mais certains algorithmes ne peuvent traiter que des variables numériques. Il est alors possible de procéder à un codage des variables nominales sous forme numérique de la façon suivante :

    1) Autant de nouvelles colonnes sont créées que la variable a de modalités. Dans cet exemple, quatre nouvelles colonnes seront créées.

    2) Chaque colonne est affectée à une modalité de la variable.

    3) Pour chaque enregistrement de la table, toutes les positions de ces colonnes sont mises à "0", sauf la colonne correspondant à la modalité adoptée par l'enregistrement, et qui est mise à "1".

    4) La colonne initiale contenant les modalités est supprimée (ou masquée). (image inférieure).


On dit que l'on a procédé sur la variable un codage disjonctif (complet). Chacune des nouvelles colonnes est maintenant considérée comme une nouvelle variable numérique, ne pouvant prendre que les valeurs "0" ou "1". Ces variables sont appelées "indicatrices" (de classe). La variable nominale originale est donc remplacée par autant d'indicatrices "numériques" qu'elle a de modalités. Ce codage est fait automatiquement, et de façon transparente pour l'utilisateur.

 

Les indicatrices sont particulièrement importantes en classification, où la variable dépendante est, par nature, nominale ("Indicatrices de classes"). On montre en effet facilement que les probabilités, pour un nouvel enregistrement, d'appartenir à chacune des classes possibles (probabilités a posteriori), sont égales aux valeurs des fonctions de régression sur les indicatrices de classes. On procède donc à un codage disjonctif des classes, puis on calcule les fonctions de régression sur les indicatrices. C'est ainsi que procèdent, par exemple, la Régression Logistique et les Réseaux de Neurones.
 

Lorsqu'il n'y a que deux classes, on ne crée qu'une seule indicatrice, qui prend la valeur "0" ou "1" selon que l'enregistrement appartient à une classe ou à l'autre classe.

 

__________________

Interprétabilité

Un Arbre de Décision produit des règles exprimables en termes métier : il est interprétable. Sous certaines réserves, les coefficients d'une Régression Linéaire permettent également d'interpréter les rôles des variables explicatives sur la prédiction du modèle.

A l'opposé, un Réseau de neurones (supervisé ou non), même s'il fournit d'excellents résultats, ne permet pas de transcrire ces prédictions en règles : il est non interprétable, on dit qu'il fonctionne comme une "boîte noire". Ce jugement est d'ailleurs à tempérer par les diverses aides à l'exploitation des résultats dont bénéficient aujourd'hui les Réseaux de neurones.

 

L'interprétabilité est évidemment une qualité souhaitable pour un modèle. Il faut néanmoins garder présent à l'esprit que rien n'est gratuit :

Téléchargez ce Glossaire