
Dimensionalité (Réduction
de)
La réduction de dimensionalité a pour objectif de créer un
petit nombre de variables qui décrivent les individus de la base presque
aussi bien que le font les variables « brutes », habituellement
en grand nombre. Ces nouvelles variables seront moins redondantes que les variables
initiales.
- L’approche la plus simple
consiste à extraire de l'ensemble des variables originales celles dont on
estime qu’elles ont une forte pertinence pour le problème traité. Inversement,
on peut éliminer de l'ensemble des variables originales celles qui n'ont
a priori pas d'incidence sur le problème. Ces exercices sont
difficiles et risqués, mais pleins d'enseignements car il amènent
souvent la confrontation d'opinions diverses quant à l'importance contestée
de certaines variables.
- Il est également
possible de remplacer un groupe de plusieurs variables fortement redondantes
par un sous-groupe restreint ne comprenant que certaines de ces variables.
- L’approche dite « experte »
consiste à combiner certaines variables d’un groupe dans une fonction
appropriée, et de remplacer, dans la base, ce groupe par la fonction.
Ces approches sont des préliminaires
indispensables. Elles ne dispensent pas de faire ensuite appel à des
techniques statistiques plus sophistiquées, essentiellement les techniques
d’Analyse Factorielles (ACP,
ACM). Les Réseaux de neurones non supervisés (essentiellement
la Carte de Kohonen),
ainsi que des techniques à la frontière entre Réseaux de
neurones et statistique avancée (ACC, ACI), permettent une réduction
maximale du nombre de variables avec une perte minimale d’information.
Pourquoi réduire la dimensionalité
d’une base de données, alors que ce processus de réduction fera
en général perdre de l’information ?
- La raison la plus évidente,
et aussi la moins importante, est de réduire la quantité d’information
que les algorithmes auront à traiter, réduisant ainsi, parfois
fortement, les temps de calcul et l’encombrement mémoire.
- Réduire le nombre
de variables à 2 permet de donner de la base une représentation
visuelle plane, ce qui permet de mettre en œuvre l’outil de d'Analyse des
Données
de loin le plus puissant qui existe : l’œil, et son fantastique système
de détection de regroupements, d’alignements, de tendances, de dérives,
de « niches »
etc…
- Mais la raison la plus
importante a trait à la crédibilité à
accorder à un modèle (prédictif ou descriptif). Pour
des raisons fondamentales (compromis
biais-variance), à erreurs commises sur les données
disponibles égales, un modèle ne prenant en entrée
que peu de variables sera plus crédible qu’un modèle
utilisant un grand nombre de variables d’entrée. Ce fait, souvent
considéré comme peu intuitif, est largement ignoré
par les utilisateurs néophytes, avec comme conséquence la
prolifération de modèles déclarés « excellents »,
et en réalité inutilisables car donnant sur des données
nouvelles des résultats de mauvaise qualité, et ce en raison
d’un trop grand nombre de variables prises en compte par le modèle
(mauvaise généralisation).
La réduction de dimensionalité
est un exercice à la fois indispensable et difficile. L'analyste se doit de
lui consacrer le temps nécessaire sous peine de construire des modèles apparemment
de bonne qualité, mais qui en fait ne représentent pas la réalité sous-jacente.
______________________________________________
Voir aussi:
|
Analyse en Composantes Principales
|

|
|
Cartes de Kohonen
|

|
|
|
Téléchargez
ce Glossaire
|

|