Descriptive (Modélisation)
La Modélisation Descriptive est une des deux branches principales de la Modélisation de Données (l'autre étant la Modélisation Prédictive). Elle cherche à extraire de tableaux de données souvents grands, parfois gigantesques, des informations compactes et interprétables. A l'inverse de la Modélisation Prédictive, elle ne fait pas de distinction entre les variables, qui sont ici toutes sur un pied d'égalité.
Alors que la Modélisation Prédictive est un domaine assez bien structuré, la Modélisation Descriptive est si vaste qu'on y retrouve des approches apparemment sans rapport entre elles.
* Certaines ne considèrent qu'une seule variable à la fois (analyse univariée), et relèvent de la Statistique traditionnelle. Ainsi, étudier la moyenne et la variance de la taille des individus dans une population, et tracer son histogramme, sont des Modélisations Descriptives simples.
* D'autres considèrent les variables par paires (analyse bivariée), typiquement en étudiant les corrélations entre variables regroupées en paires. Enoncer que "Taille" et "Poids" ont un coefficient de corrélation de 0,65 est une information compacte et interprétable.
* D'autres types de Modélisation Descriptive sont nettement plus complexes. Par exemple :
____________________________________________________________
Ces deux derniers exemples montrent bien le caractère parfois quelque peu factice de la distinction entre Modélisations Prédictive et Descriptive. Ainsi, l'Analyse en Composantes Principales (ACP) est probablement la technique de Réduction de Dimensionalité la plus répandue (bien qu'elle ne soit pas souvent utilisée à cette fin). Elle opère en détectant des redondances linéaires entre variables, puis en utilisant ces redondances pour effectuer un changement de repère approprié. Ces redondances permettraient, théoriquement, de prédire certaines des variables originales à partir d'autres variables originales, et l'ACP pourrait donc être perçue comme une technique prédictive, alors qu'aucun praticien ne la considère comme telle.
De même, découvrir que deux variables sont fortement corrélées est une information typiquement descriptive. Pourtant, elle a pour conséquence que la valeur de l'une peut-être prédite avec une assez bonne précision par une Régression Linéaire Simple sur l'autre. Cette information pourrait donc être aussi bien considérée comme prédictive.
En fait, la Modélisation Descriptive est surtout définie par l'objectif que se fixe le praticien : rendre compte de la structure des données d'une façon compacte et intelligible.
Nous avons évoqué le fait que le Clustering détecte une redondance entre les lignes d'un tableau. Rappelons que la Modélisation Prédictive détecte la redondance entre les colonnes d'un tableau. On aurait donc pu imaginer une présentation de le Modélisation de Données selon ces deux axes clairement définis. L'usage n'a pas retenu cette approche.
____________________________________________________________
Voir aussi: