Prédictive  (Modélisation)

La Modélisation Prédictive est une des deux branches principales de la Modélisation de Données (l'autre étant la Modélisation Descriptive).

La modélisation prédictive

Elle a pour objets :

     1) D'identifier des liens forts entre des variables (colonnes) du tableau de données. Un tel lien pourra se traduire, par exemple, par une équation (approchée) reliant une variable y, dite "variable à expliquer", à un groupe de n autres variables {xi}, dites "variables explicatives", ou "prédicteurs" :

y = f(x1, x2, ..., xn)

La découverte de ce lien est en soi importante puisqu'elle permet d'identifier des relations (que l'on espère causales) entre les variables.

 

     2) Puis d'utiliser cette équation pour prédire la valeur de y pour de nouveaux individus pour lesquels y n'aurait pas été mesuré (et qui ne figureraient donc pas dans le tableau de données initial).

Modélisation prédictive et redondance

La découverte d'une relation comme celle ci-dessus montre que le groupe de prédicteurs {x1, x2, ..., xn} contient toute l'information nécessaire au calcul de y (aux erreurs de mesure près), et que le tableau de données initial est donc redondant : éliminer y ne fait pas perdre d'information sur la population. Cette redondance est concrétisée par le modèle  y = f(x1, x2, ..., xn), qui peut alors être utilisé pour prédire les valeurs de la variable dépendante y pour de nouveaux individus pour lesquels cette variable n'a pas été mesurée.

La modélisation prédictive peut donc être perçue comme :

Modélisations prédictives paramétrique et non paramétrique

L'équation   y = f(x1, x2, ..., xn) est un modèle prédictif. La fonction f(.) peut prendre des formes très différentes :

Ces calculs reposent sur des hypothèses fortes portant sur la distribution statistique des données (modèles paramétriques). Si ces hypothèses sont vérifiées, il est alors possible d'obtenir une quantité de résultats relatifs à la crédibilité du modèle (intervalles de confiance, tests, sélection de variables, erreurs de prédiction etc...).

Les deux exemples les plus utilisés de tels modèles prédictifs paramétriques sont :

La fonction f(.) n'a alors plus de forme mathématique simple et interprétable en termes de distribution statistique des données.

Ces modèles fonctionnent un peu comme des "boîtes noires" : ils remplissent leur rôle de régresseur ou de classifieur, mais la plupart des résultats théoriques dont bénéficient les modèles paramétriques sont perdus. Ces résultats doivent être remplacés par des méthodes de validation non paramétrique (p. ex. validation croisée, bootstrap).

Difficultés de la modélisation prédictive

Les deux difficultés majeures de la modélisation prédictive sont :

    * Le choix des variables indépendantes (prédicteurs). Pour des raisons fondamentales (compromis biais-variance), il est indispensable de procéder à une sélection rigoureuse des prédicteurs (voir p.ex ici).

    * Le choix de la technique de prédiction (c'est à dire de la fonction f(.) ci-dessus), laissée à l'appréciation de l'analyste.

 

__________________________________________________________

 

Voir aussi:

Modélisation de Données

Modélisation Descriptive

Régression

Classification

Téléchargez ce Glossaire