Dans une base de données, une variable nominale est en général représentée par ses modalités, qui sont des grandeurs non numériques. Par exemple, la Catégorie SocioProfessionnelle (CSP) pourra avoir quatre modalités "Artisan", "Employé", "Cadre" et "Agriculteur" (image supérieure). Mais certains algorithmes ne peuvent traiter que des variables numériques. Il est alors possible de procéder à un codage des variables nominales sous forme numérique de la façon suivante :
1) Autant de nouvelles colonnes sont créées que la variable a de modalités. Dans cet exemple, quatre nouvelles colonnes seront créées.
2) Chaque colonne est affectée à une modalité de la variable.
3) Pour chaque enregistrement de la table, toutes les positions de ces colonnes sont mises à "0", sauf la colonne correspondant à la modalité adoptée par l'enregistrement, et qui est mise à "1".
4) La colonne initiale contenant les modalités est supprimée (ou masquée). (image inférieure).
On dit que l'on a procédé sur la variable un codage
disjonctif (complet). Chacune des nouvelles colonnes est maintenant considérée
comme une nouvelle variable numérique, ne pouvant prendre que les valeurs "0"
ou "1". Ces variables sont appelées "indicatrices"
(de classe). La variable nominale originale est donc remplacée par autant d'indicatrices
"numériques" qu'elle a de modalités. Ce codage est fait automatiquement,
et de façon transparente pour l'utilisateur.
Les indicatrices sont particulièrement importantes
en classification, où la variable dépendante est, par nature, nominale ("Indicatrices
de classes"). On montre en effet facilement que les probabilités, pour
un nouvel enregistrement, d'appartenir à chacune des classes possibles (probabilités
a posteriori), sont
égales aux valeurs des fonctions de régression sur les indicatrices de classes.
On procède donc à un codage disjonctif des classes, puis on calcule les fonctions
de régression sur les indicatrices. C'est ainsi que procèdent, par exemple,
la Régression Logistique
et les Réseaux
de Neurones.
Lorsqu'il n'y a que deux classes, on ne crée qu'une seule indicatrice, qui prend la valeur "0" ou "1" selon que l'enregistrement appartient à une classe ou à l'autre classe.
__________________
Un Arbre de Décision produit des règles exprimables
en termes métier : il est interprétable. Sous certaines
réserves, les coefficients d'une Régression Linéaire permettent
également d'interpréter les rôles des variables explicatives
sur la prédiction du modèle.
A l'opposé, un Réseau de neurones (supervisé ou non), même s'il fournit d'excellents résultats, ne permet pas de transcrire ces prédictions en règles : il est non interprétable, on dit qu'il fonctionne comme une "boîte noire". Ce jugement est d'ailleurs à tempérer par les diverses aides à l'exploitation des résultats dont bénéficient aujourd'hui les Réseaux de neurones.
L'interprétabilité est évidemment
une qualité souhaitable pour un modèle. Il faut néanmoins
garder présent à l'esprit que rien n'est gratuit :
________________________________________________