Indépendantes (Variables)
Ce mot a deux significations différentes.
1) En modélisation
prédictive, les variables explicatives (ç.à.d. figurant en entrée du modèle)
sont parfois appelées "variables indépendantes", la variable "à
expliquer" étant alors appelée "variable dépendante". Rappelons
qu'en modélisation descriptive, il n'est pas fait de distinction entre variables.
2) En statistique, deux variables x1 et x2 sont dites indépendantes si la connaissance de la valeur que prend x1 (pour un individu donné) n'apporte aucune information sur la valeur que peut prendre x2 pour cet individu, et réciproquement. Autrement dit, la valeur de x1 étant fixée, la distribution des valeurs observées pour x2 est toujours la même, et ce quelle que soit la valeur de x1 (et réciproquement).
Les modèles construits sont d'autant plus stables
(et donc crédibles) que les variables en entrée se rapprochent de la condition
d'indépendance. Il est donc souhaitable de n'utiliser en entrée que des variables
"aussi indépendantes les unes des autres" que possible, quitte à transformer,
dans ce but, les variables originales. Les techniques de réduction
de dimensionalité produisent des nouvelles variables en nombre réduit, et
"plus indépendantes" les unes des autres que les variables originales.
C'est ce que fait en particulier l'ACP, qui génère des variables décorrélées (les Composantes Principales), c'est à dire dont les coefficients de corrélations deux à deux sont nuls. Rappelons que décorrélation ne veut pas dire "indépendance" : deux variables indépendantes (l'une de l'autre) sont décorrélées, mais deux variables décorrélées peuvent parfaitement avoir entre elles un fort lien de dépendance (voir ici).
Note : Il existe maintenant des techniques plus puissantes que l'ACP qui produisent des variables non seulement simplement décorrélées, mais authentiquement indépendantes (Independant Component Analysis, ou ICA). Nous vous en dirons plus sur cette question dès qu'un éditeur mettra sur le marché des versions commerciales de ces techniques extrêmement puissantes.
______________
Dans une base de données, une variable nominale est en général représentée par ses modalités, qui sont des grandeurs non numériques. Par exemple, la Catégorie SocioProfessionnelle (CSP) pourra avoir quatre modalités "Artisan", "Employé", "Cadre" et "Agriculteur" (image supérieure). Mais certains algorithmes ne peuvent traiter que des variables numériques. Il est alors possible de procéder à un codage des variables nominales sous forme numérique de la façon suivante :
1) Autant de nouvelles colonnes sont créées que la variable a de modalités. Dans cet exemple, quatre nouvelles colonnes seront créées.
2) Chaque colonne est affectée à une modalité de la variable.
3) Pour chaque enregistrement de la table, toutes les positions de ces colonnes sont mises à "0", sauf la colonne correspondant à la modalité adoptée par l'enregistrement, et qui est mise à "1".
4) La colonne initiale contenant les modalités est supprimée (ou masquée). (image inférieure).
On dit que l'on a procédé sur la variable un codage
disjonctif (complet). Chacune des nouvelles colonnes est maintenant considérée
comme une nouvelle variable numérique, ne pouvant prendre que les valeurs "0"
ou "1". Ces variables sont appelées "indicatrices"
(de classe). La variable nominale originale est donc remplacée par autant d'indicatrices
"numériques" qu'elle a de modalités. Ce codage est fait automatiquement,
et de façon transparente pour l'utilisateur.
Les indicatrices sont particulièrement importantes
en classification, où la variable dépendante est, par nature, nominale ("Indicatrices
de classes"). On montre en effet facilement que les probabilités, pour
un nouvel enregistrement, d'appartenir à chacune des classes possibles (probabilités
a posteriori), sont
égales aux valeurs des fonctions de régression sur les indicatrices de classes.
On procède donc à un codage disjonctif des classes, puis on calcule les fonctions
de régression sur les indicatrices. C'est ainsi que procèdent, par exemple,
la Régression Logistique
et les Réseaux
de Neurones.
Lorsqu'il n'y a que deux classes, on ne crée qu'une seule indicatrice, qui prend la valeur "0" ou "1" selon que l'enregistrement appartient à une classe ou à l'autre classe.
__________________
Un Arbre de Décision produit des règles exprimables
en termes métier : il est interprétable. Sous certaines
réserves, les coefficients d'une Régression Linéaire permettent
également d'interpréter les rôles des variables explicatives
sur la prédiction du modèle.
A l'opposé, un Réseau de neurones (supervisé ou non), même s'il fournit d'excellents résultats, ne permet pas de transcrire ces prédictions en règles : il est non interprétable, on dit qu'il fonctionne comme une "boîte noire". Ce jugement est d'ailleurs à tempérer par les diverses aides à l'exploitation des résultats dont bénéficient aujourd'hui les Réseaux de neurones.
L'interprétabilité est évidemment
une qualité souhaitable pour un modèle. Il faut néanmoins
garder présent à l'esprit que rien n'est gratuit :