Régression

Une des deux branches de la Modélisation Prédictive (l'autre étant la Classification).

 

Nous abordons ici les points suivants :
 

Définition de la Régression

Difficultés de la Régression

Calcul des paramètres du modèle

Validation du modèle

 

 ____________________________________________________

Définition de la Régression

        Dans l'illustration ci-dessous, l'image supérieure est une représentation graphique de la base de données historique (outrageusement simplifiée) d'un organisme de crédit automobile. Cette société veut utiliser ces données pour prédire le budget qu'un nouveau client est prêt à consacrer à l'achat d'un nouveau véhicule.

 

 

Les données se regroupant en un ruban assez étroit, il est possible de faire passer "au mieux" une courbe à travers ce nuage de points (image inférieure), et de considérer que cette courbe est un modèle approximatif mais satisfaisant de la réalité.

Cette courbe matérialise une fonction

Budget = f *(Âge)

 qui est appelée la fonction de régression de la variable "Budget" sur la variable "Âge".


L'astérisque est là pour rappeler qu'il ne s'agit que d'une estimation de la vraie fonction de régression (voir plus bas).

Elle sera utilisée de la façon suivante :

selon le schéma ci-dessous :

 

 

 

Nous allons provisoirement ignorer la difficulté liée au fait que la base de données ne contient qu'un échantillon de la population (supposée infinie) des clients potentiels, et considérer qu'elle contient virtuellement l'intégralité de cette population. De même, nous allons maintenant définir la vraie fonction de régression f(x) (et non son estimation f *(x) construite par l'analyste à partir d'un échantillon limité).

Même ces causes d'incertitude levées, il est clair que la prédiction ne peut être parfaite. Dans l'exemple précédent, l'Âge ne peut à lui seul déterminer de façon unique le comportement d'un nouveau client. Pour un Âge donné, les valeurs de y (le budget) se répartissent selon une certaine distribution (voir illustration ci-dessus). La fonction de régression f (x) donnant une réponse unique pour toute valeur de x, sa prédiction est donc presque certainement entachée d'erreur.

 

D'autres variables pourraient être prises en compte dans le but de réduire les erreurs sur la prédiction des valeurs de y. Ainsi, on pourrait penser inclure dans la fonction de régression le Sexe, le Revenu, le Kilométrage annuel, le Nombre d'enfants etc... Toutes ces grandeurs servant à la prédiction sont appelées "variables explicatives", ou "prédicteurs", alors que "Budget" est appelé "variable à expliquer". Ainsi, d'une façon générale, la fonction de régression est la "meilleure" fonction :

y = f(x1, x2, ..., xp)

permettant de prédire la valeur de la variable à expliquer y, connaissant les valeurs des prédicteurs {x1, x2, ..., xp}.

 
Il faut donc définir f(x1, x2, ..., xp) de façon à minimiser ces erreurs. Cette expression est par elle même ambiguë, et il convient de définir ce que l'on entend par "minimiser les erreurs".
Le terme "régression" repose sur la définition suivante :

 

Dans le vocabulaire de la Statistique, la fonction de régression matérialise donc l'espérance de y conditionnellement à {x1, x2, ..., xp}. En notation technique, on a donc, par définition :

f(x1, x2, ..., xp) = E[y , x1, x2, ..., xp]

Pour la notion d'espérance conditionnelle, voir ici.

Ainsi, alors que la première illustration donnait de la fonction de régression une représentation intuitive purement géométrique, il apparaît que la notion de régression est essentiellement probabiliste.

Difficultés de la Régression

Les difficultés propres à la régression sont de deux ordres :

            1) La fonction de régression f(.) peut avoir une forme analytique quelconque (voire pas de forme analytique), et de toute façon inconnue. L'analyste devra donc faire le choix de la forme fonctionnelle f *(.) (le modèle de régression) destinée à approximer  f(.) en fonction de ce qu'il sait des données.

            2) La régression suppose donc que les données ont été générées par une densité de probabilité :

y = f(x) + ex

où :

Ceci n'empêche pas de construire une fonction de régression approchée, mais rend inopérantes certaines techniques auxiliaires importantes, en particulier des tests portant sur le fait qu'un prédicteur ait, ou non, une influence sur y.

Il est alors souvent fait l'hypothèse simplificatrice que la variance de ex est la même dans tout l'espace des prédicteurs (homoscédasticité). De plus, si ex est supposé normalement distribué, alors les tests ci-dessus mentionnés redeviennent justifiés si le modèle est linéaire dans les paramètres (mais pas forcément dans les variables, voir ici).

-----

En dehors de ces difficultés spécifiques, la régression doit également faire face, comme toute modélisation, à la très importante question du choix des variables à incorporer dans le modèle. Nous ne rappelerons jamais assez que :

ce qui lui permet de mieux rendre compte des données disponibles.

 

Il existe donc un "juste milieu", difficile à trouver (sauf dans les cas les plus simples comme la Régression Linéaire Simple), et dont le non respect est la cause majeure d'échec de la modélisation.

Calcul des paramètres du modèle

        Le choix de la forme fonctionnelle f *(.) du modèle de régression étant fait, il faut alors calculer les valeurs de paramètres de cette fonction de façon à ce qu'elle approche au mieux la vraie fonction de régression  f(.).

Il existe deux méthodes principales de calcul des paramètres d'un modèle de régression :

Validation du modèle

        En tout état de cause, le modèle matérialisé par la fonction f *(.) sera construit à partir de données aléatoires en nombre fini, et ne peut donc, au mieux, qu'être une estimation de la vraie fonction de régression f(.), qui reste à jamais inconnue. Comme pour tout modèle, il sera donc essentiel d'estimer ses performances réelles (c'est à dire sur des données n'ayant pas contribué à son élaboration).

La Régression Linéaire est un des rares cas où, moyennant certaines hypothèses raisonnables sur le mécanisme ayant généré les données, il est possible d'estimer par le calcul les performances du modèle.

Dans le cas général, il conviendra :

 

_________________________________________

 

Voir aussi:

Modélisation

Classification

Estimation

Estimation par Moindres Carrés

Maximum de vraisemblance

Régression Linéaire Simple

Régression Linéaire Multiple

Régression Logistique

Réseaux de Neurones

Téléchargez ce Glossaire