Tutoriels

Régression Linéaire Multiple

Si vous n'êtes pas familiarisé avec la Régression Linéaire, nous vous suggérons de lire dans un premier temps l'entrée sur la Régression Linéaire Simple (RLS).

Principe de la Régression Linéaire Multiple

La Régression Linéaire Simple cherchait à "expliquer" les valeurs prises par une variable y par les valeurs prises par une autre variable x, ces deux variables étant supposées avoir entre elles une relation linéaire :

y = ax + b + e(x)

e est un bruit aléatoire qui dépend a priori de x.

Génération des données

Le problème traité par la Régression Linéaire Multiple (RLM) est le même, si ce n'est que l'on cherche à expliquer les valeurs de y non pas par une seule variable x, mais par plusieurs variables {xj}, dites "variables explicatives". En changeant légèrement les notations précédentes, on suppose donc que y et les {xj} sont liées par une relation linéaire :

y = b0 + b1x1 + b2x2 + ... + bpxp + e (x)

où :

    * p est le nombre de variables explicatives,

    * e(x) est un bruit aléatoire dont nous préciserons plus tard la nature, mais qui dépend a priori du point x de l'espace des données défini par les valeurs des xj.

Les données expérimentales sont consituées de n mesures yi , i = 1, 2, ..., n, pour n jeux de valeurs des variables explicatives :

yi  = b0 + b1xi1 + b2xi2 + ... + bpxip + e(x)i 

Dans cette expression :

    * Les bi sont des nombres fixes, mais inconnus.

    * Les e(x)i sont des réalisations des e(x).

Le modèle

La Régression Linéaire Simple cherchait à faire passer une droite "au mieux" (c'est à dire au sens des Moindres Carrés) à travers le nuage de points représentant les données dans le plan (x, y). Il va en être de même pour la Régression Linéaire Multiple, si ce n'est que la représentation visuelle devient maintenant impossible, sauf, "de justesse", lorsqu'il n'y a que deux variables explicatives x1 et x2 : la Régression Linéaire Multiple va alors faire passer "au mieux" un plan à travers le nuage de points représentant les données dans l'espace (x1, x2, y).

 

 

Dans l'illustration ci-dessus, la plan des Moindres Carrés est celui qui minimise le somme des carrés des longueurs des segments bleus parallèles à l'axe y. Ces longueurs (signées) s'appellent les résidus du modèle. Le plan des Moindres Carrés est donc celui qui minimise la somme des carrés des résidus.

 

En dimension supérieure, il faut se contenter de dire que la Régression Linéaire Multiple va déterminer l'hyperplan de dimension p minimisant la somme des carrés des écarts (mesurés parallèlement à l'axe y) entre les points représentant les données et l'hyperplan.

Cet hyperplan aura pour équation :

y* = b*0 + b1*x1 + b2*x2 + ... + bp*xp

où les coefficients bj* s'appellent les paramètres estimés du modèle.

Valeurs ajustées

Les n valeurs prises par y* pour les différents jeux de valeurs des {xj} sont appelées les valeurs ajustées du modèle. Ainsi, la ième valeur ajustée yi* est :

y*i  = b0* + b1*xi1 + b2*xi2 + ... + bp*xip

Dans l'illustration ci-dessus,  les valeurs ajustées sont les hauteurs des points du plan des MC à la verticale des points rouges (données).

Prédictions

Une fois construit sur les données disposibles, le modèle sera probablement utilisé par la suite pour prédire les valeurs prises par y pour des jeux de données {x} ne figurant pas dans les données initiales (modélisation prédictive). Ainsi, la valeur de y prédite pour le nouveau point xn+1 = {xn+1,1, ..., xn+1,p} sera :

y*n+1  = b0* + b1*xn+1,1 + b2*xn+1,2 + ... + bp*xn+1,p

et y*n+1 sera appelé la prédiction du modèle pour xn+1.


Il est courant de trouver dans la littérature le terme "prévision" au lieu de "prédiction". Nous préférons conserver cette dernière expression pour rester cohérent avec l'expression "modélisation prédictive".

Similitudes entre Régressions Linéaires Simple et Multiple

Nous verrons que la similitude entre les deux problèmes se traduit par une similitude entre les solutions. Nous trouverons des estimateurs b*i des coefficients bi, nous montrerons que ces estimateurs sont sans biais, et nous calculerons leur matrice de covariance.

En formulant ensuite l'hypothèse de normalité sur e, nous montrerons que les estimateurs b*j ont des distributions normales, ce qui nous permettra de construire des tests et des intervalles de confiance sur les valeurs de ces estimateurs.

Nous aborderons enfin la question des prédictions du modèle sur des données nouvelles, et calculerons des intervalles de confiance sur ces prédictions.

Autrement dit, le schéma de l'étude de la Régression Linéaire Multiple est calqué sur celui de la Régression Linéaire Simple, avec des résultats similaires.

Alors pourquoi un chapitre séparé sur la Régression Linéaire Multiple ?

Différences entre Régressions Linéaires Simple et Multiple

Il y a trois raisons essentielles qui plaident en faveur d'un développement séparé de la Régression Linéaire Multiple.

Complexité des calculs, calcul matriciel

Bien que similaires à ceux de la Régression Linéaire Simple, les calculs et les résultats sont plus complexes en raison de la présence de plusieurs variables explicatives. Les calculs reposant sur des équations "ordinaires" deviennent lourdes à manipuler, et le recours à des équations matricielles devient alors une nécessité pratique.

Le canevas de la Régression Linéaire Simple restant cependant disponible, la Régression Linéaire Multiple devient alors un excellent outil pédagogique pour une introduction en douceur de certains aspects importants de l'Algèbre Linéaire.

Sélection de variables

Ce deuxième point est plus important pour le praticien : la Régression Linéaire Multiple est probablement le premier exemple qu'il rencontrera du "compromis biais-variance", et dont nous résumons maintenant les aspects principaux.

Un modèle (qu'il soit prédictif ou descriptif) construit sur la base d'un échantillon ne doit pas contenir "trop" de paramètres (ici, les b*j ) sous peine, au-delà d'un certain point, de voir :

Ces questions sont d'une grande importance pratique, et vont forcer l'analyste à fournir un effort important pour sélectionner, parmi les {xj} disponibles (souvent très nombreuses), celles qui seront retenues dans le modèle final.

Collinéarité des variables explicatives

Une autre source de variance pour les paramètres et les prédictions d'un modèle de Régression Linéaire Multiple vient d'une possible collinéarité entre variables explicatives.

Même une sélection sévère des variables explicatives ne peut totalement éliminer le phénomène de collinéarité, et la Régression Linéaire Multiple a développé un certain  nombre de techniques spécifiques destinées à lutter contre ce problème, comme la Régression Ridge.

_________________________________________

 

Tutoriel 1

 

Dans ce premier Tutoriel, nous commençons par établir les notations définitives décrivant le problème, et énonçons l'hypothèse de non collinéarité des données.

Nous donnons ensuite du problème une description géométrique dans l'espace des variables, que nous utiliserons à de multiples reprises dans les Tutoriels suivants. Beaucoup des calculs que nous conduirons seront inspirés par des considérations préliminaires sur cette représentation géométrique.

Nous calculons ensuite les valeurs b*j des paramètres du modèle par la méthode des Moindres Carrés. En raison de l'importance fondamentale du résultat, nous en donnons plusieurs démonstrations, ce qui nous permettra de nous familiariser avec la représentation géométrique de la Régression Linéaire Multiple, ainsi qu'avec des notions importantes d'Algèbre Linéaire.

Cette partie est purement géométrique, et ne contient aucune notion de Statistique.

-----

Ce premier Tutoriel devrait convaincre le lecteur de la très grande efficacité de l'Algèbre Linéaire, qui sera notre outil presque exclusif tout au long de ces Tutoriels. Cependant, nous serons amenés à utiliser de nombreux résultats d'Algèbre Linéaire que nous énoncerons sans justification, renvoyant le lecteur intéressé aux multiples ouvrages spécialisés dans ce domaine.

 

 

AJUSTEMENT DU MODELE PAR MOINDRES CARRES

La matrice des données

Ordonnée à l'origine et notations définitives

Matrice des données

Hypothèse sur la matrice des données

Minimisation de l'erreur quadratique

L'espace des variables

L'espace des solutions

L'espace des résidus

Moindres Carrés et projection orthogonale

Calcul de l'Estimateur des Moindres Carrés

Calcul analytique matriciel

Position de l'extremum

L'extremum est un minimum

Calcul par des méthodes géométriques

Par les propriétés des opérateurs de projection

Par décomposition d'un vecteur sur deux espaces orthogonaux

Par orthogonalité de l'espace des solutions et de l'espace des résidus

La "Hat matrix" et les leviers

Projections orthogonales et coordonnées du vecteur des valeurs ajustées

TUTORIEL

 _________________________________________________________________________

 

Tutoriel 2

 

Le premier Tutoriel ne traitait que d'un problème de géométrie. Nous introduisons maintenant des éléments de Statistique en considérant que les erreurs de mesures e(x)i sont en fait des variables aléatoires. Les mesures yi sont donc également aléatoires, et, par voie de conséquence, les paramètres estimés bj* sont également des variables aléatoires.

Après avoir énoncé les hypothèses relatives aux propriétés statistiques des erreurs, nous calculons les propriétés statistiques élémentaires du vecteur des paramètres estimés :

    * Sa moyenne,

    * Et sa matrice de covariance.

Ces résultats sont établis exclusivement par Algèbre Linéaire et énoncés sous forme matricielle, mais ils permettent de retrouver, si besoin est, tous les résultats sur les paramètres individuels, comme par exemple le coefficient de corrélation entre deux paramètres estimés.

-----

Nous concluons par une démonstration simple du Théorème de Gauss-Markov, qui établit que l'estimateur des Moindres Carrés est le meilleur parmi les estimateurs linéaires sans biais du vecteur des paramètres du modèle linéaire.

 

 

PROPRIETES STATISTIQUES DES PARAMETRES ESTIMES

Les erreurs sont des variables aléatoires

Le vecteur des paramètres estimés est aléatoire

Centrage des erreurs

Homoscédasticité

Décorrélation des erreurs

Matrice de covariance des erreurs

Hypothèse de normalité ?

L'estimateur des paramètres est sans biais

Matrice de covariance des paramètres estimés

Cas général

Cas particulier : variables orthogonales

Théorème de Gauss-Markov

TUTORIEL

 _____________________________________________________________

 

Tutoriel 3

 

Le Tutoriel précédent traitait plus particulièrement des propriétés statistiques du vecteur des paramètres b* du modèle.

Celui-ci aborde la question des propriétés statistiques :

    * Des résidus,

    * Des valeurs ajustées,

    * Et des prédictions

de ce modèle.

Le vecteur des résidus joue un rôle important, et nous détaillons dans un premier temps certaines de ses propriétés géométriques avant de décrire ses propriétés statistiques.

-----

Nous terminons avec la question fondamentale pour le praticien de l'estimation de la variance des erreurs s² : nous identifierons un estimateur sans biais de cette variance.

A l'aide de ce résultat capital, nous identifierons enfin un estimateur des variances (et donc des écarts-type) des paramètres bj*, grandeurs essentielles pour l'évaluation ultérieure de la crédibilité du modèle.

 

 

RESIDUS, VALEURS AJUSTEES ET ERREURS DE PREDICTION.

VARIANCES ESTIMEES DES ERREURS ET DES PARAMETRES.

Résidus

Définition des résidus

Propriétés du vecteur des résidus

Projection du vecteur des mesures

Projection du vecteur des erreurs

Orthogonalité des résidus et des valeurs ajustées

Espérance du vecteur des résidus

Matrice de covariance des résidus

Valeurs ajustées

Espérance des valeurs ajustées

Matrice de covariance des valeurs ajustées

Covariance des résidus et des valeurs ajustées

Propriétés des erreurs de prédictions

Moyenne de l'erreur de prédiction

Variance de l'erreur de prédiction

Première forme

Deuxième forme

Estimation sans biais de la variance des erreurs

Estimation de la variance des paramètres

TUTORIEL

 _______________________________________________________________

 

 

Tutoriel 4

 

Le modèle étant maintenant construit se pose la question : "Le modèle rend-il compte convenablement des données ?". Intuitivement, ce sera la cas si les valeurs des résidus sont faibles. Le Coefficient de détermination, noté R² apporte une réponse qui a l'avantage de recevoir une interprétation géométrique simple.

Dans ce court Tutoriel, nous décrivons l'origine géométrique du R², et en donnons les deux formes couramment utilisées.

Nous décrivons également sans justification la faiblesse du R², et en donnons sa version améliorée, le "R² ajusté".

 

 

COEFFICIENT DE DETERMINATION R²

COEFFICIENT DE DETERMINATION AJUSTE

Coefficient de détermination R²

Origine de la variabilité des mesures

Interprétation géométrique

Analyse de la variance

Adéquation du modèle

Coefficient de détermination ajusté

TUTORIEL

 ________________________________________________________

 

 

Tutoriel 5

 

Dans les Tutoriels précédents, nous avons formulé les hypothèses suivantes sur les données :

    * Relation linéaire entre les variables explicatives {xj} et la variable à expliquer y,

    * Erreurs de mesure ei de moyenne nulle, décorrélées, et de variance uniforme (homoscédasticité),

mais nous n'avons supposé aucune forme particulière des distributions de probabilité des erreurs e.

Pourtant, la méthode des Moindres Carrés s'est avérée être assez puissante pour produire des résultats importants sur les propriétés statistiques des estimateurs.

 

Nous allons maintenant conserver les hypothèses précédentes, mais en y ajoutant une hypothèse supplémentaire : les ei sont des v.a. normales (ou "gaussiennes"). Sous forme vectorielle, les hypothèses relatives aux erreurs se résument donc par l'expression :

e~N(0, s²In)

In est la matrice unitaire d'ordre n.

Cette hypothèse va ouvrir de nouvelles directions d'étude de la Régression Linéaire Multiple :

  1. Les paramètres vont maintenant pouvoir être estimés par une méthode statistique (en l'occurence, la méthode du Maximum de Vraisemblance) plus générale que la méthode des Moindres Carrés.
  2. Les distributions de probabilité des paramètres, variance estimée et prédictions seront maintenant connues. Ceci permettra l'élaboration d'intervalles de confiance portant sur les valeurs de ces paramètres ainsi que sur les valeurs des mesures prédites par le modèle.
  3. De même, il sera possible d'élaborer des tests portant sur les valeurs des paramètres, et ainsi de commencer à étudier le rôle des variables individuelles dans les performances du modèle.

 ________

Dans ce Tutoriel, nous abordons les conséquences de l'hypothèse normale sur les distributions des divers estimateurs déjà rencontrés. Les intervalles de confiance et tests seront abordés dans les Tutoriels suivants.

-----

Nous avertissons le lecteur que le résultat fondamental sur la distribution de la variance estimée des erreurs est donné sans démonstration. Celle-ci repose en effet sur le "Théorème de Cochran" que nous énonçons, mais dont la démonstration dépasse le cadre de ce Glossaire.

 

 

L'HYPOTHESE NORMALE

Estimation des paramètres par Maximum de Vraisemblance

La log-vraisemblance

Estimation des paramètres

Estimation de la variance des erreurs

Distributions des estimateurs (variance connue)

Distribution des paramètres estimés

Distribution de la variance estimée des erreurs (sans démonstration)

Indépendance des paramètres estimés et de la variance estimée des erreurs

Distributions des paramètres estimés (variance inconnue)

Distribution des erreurs de prédictions

Variance des erreurs connue

Variance des erreurs inconnue

TUTORIEL

 ______________________________________________________________________

 

 

Tutoriel 6

 

Sous l'hypothèse normale, nous avons calculé les distributions des paramètres estimés, de la variance estimée et des prédictions. Il est donc très simple de donner les intervalles de confiance sur les valeurs calculées de ces quantités, ce que nous faisons dans ce court Tutoriel.

La notion de Région de Confiance sur plusieurs paramètres considérés simultanément, bien qu'assez intuitive, et difficile sur le plan théorique, et nous ne faisons que l'évoquer dans une note. Cependant, comme certains logiciels donnent à l'utilisateur la possibilité de tracer des ellipses de confiance sur des paires de paramètres, nous en donnons quelques règles simples d'interprétation.

 

INTERVALLES DE CONFIANCE

Intervalles de confiance sur les paramètres estimés

Intervalles de confiance

Note sur les régions de confiance

Intervalles de confiance sur la variance estimée

Intervalles de confiance sur les prédictions

TUTORIEL

 ___________________________________________________

 

 

Tutoriel 7

 

Le modèle une fois construit se pose la question de la pertinence des variables explicatives le composant. Il est naturel de se demander pour chaque variable explicative s'il était bien nécessaire de l'incorporer dans le modèle. Que penser d'une situation dans laquelle un nouveau modèle construit sans cette variable serait à peine différent de celui construit avec cette variable ? Un élément de réponse vient du compromis biais-variance, qui nous recommande, toutes choses égales par ailleurs, de n'utiliser que le moins de variables possible pour construire un modèle.

Ce Tutoriel aborde donc la question suivante : "Construisons dans un premier temps un modèle sur un certain ensemble de variables explicatives. Puis retirons certaines variables de cet ensemble, et construisons un deuxième modèle sur cet ensemble réduit de variables  (les deux modèles sont alors dits "emboîtés"). Les deux modèles ainsi obtenus sont-ils significativement différents ?"

Répondre à cette question exige de donner un sens à l'expression "significativement différents". Nous le ferons en identifiant une statistique dont la distribution peut être calculée quand les deux modèles sont en fait identiques. Un test pourra alors être déduit de cette distribution.

La statistique du test peut être construite par la méthode dite "du rapport de vraisemblance maximale". Cette approche est très technique, et nous lui préférons une autre approche s'appuyant sur l'intuition géométrique. Des raisonnements quelque peu heuristiques mais simples nous conduirons à la définition de la statistique du test.

Par contre, l'identification de la distribution de cette statistique reposera à nouveau sur le Théorème de Cochran, que nous évoquerons sans démonstration.

-----

Nous étudierons enfin deux cas particuliers de modèles emboîtés :

    * Une seule variable est retirée. Ce cas peut également être abordé par un test de Student, et nous verrons alors que les deux tests sont en fait équivalents.

    * Toutes les variables sont retirées (sauf l'ordonnée à l'origine). Le test (dit "test global de Fisher", ou "test du R²") porte alors sur la signification du modèle lui-même.

 

 

TESTS SUR MODELES EMBOÎTES

Variables non significatives

Tester la signification d'une variable

Pourquoi détecter les variables non significatives ?

Modèles emboîtés

Cas particuliers de modèles emboîtés

Une seule variable

Toutes les variables

Test entre modèles emboîtés

Le nouveau sous-espace de projection

Construction de la statistique du test

Distribution de la statistique du test

Indépendance du numérateur et du dénominateur

Distribution du numérateur

Distribution du dénominateur

Distribution de la statistique

La statistique du test comme fonction de R²

Le test

Test de Student sur une seule variable

Le test sur modèles emboîtés

Le test de Student

Equivalence des deux tests

Test global de Fisher sur toutes les variables

TUTORIEL

 ___________________________________________________________

 

Tutoriel 8

 

Un même jeu de données conduit toujours à la construction de plusieurs modèles, qui différeront par :

    * Le choix des variables explicatives,

    * Et éventuellement la méthode de calcul des paramètres,

et la question se pose naturellement de choisir, parmi ces modèles, le "meilleur".

 

Ce Tutoriel est consacré à la description des différentes techniques de choix entre modèles construits sur un même jeu de données. Nous verrons que les techniques de comparaison sont nombreuses, et malheureusement difficiles à comparer entre elles.

 

 

 COMPARER DES MODELES DE RLM

Trois définitions de la "qualité" d'un modèle

La voie royale : données abondantes

Situation réaliste : peu de données

Validation croisée

Test entre modèles emboîtés

R² ajusté

Le R² augmente en ajoutant des variables

Le R² ajusté

Cp de Mallows

Théorie

 Interprétation et utilisation

Vraisemblance pénalisée

Principe général

AIC  (Akaike)

BIC  (Schwarz)

Comparaison des critères 

TUTORIEL

 ___________________________________________________

 

Tutoriel 9

 

Nous nous référons à nouveau au compromis biais-variance pour affirmer que, pour un niveau de performance donné sur l'ensemble des données ayant participé à la construction du modèle, un petit modèle (peu de variables) est préférable à un gros modèle.

L'analyste fait souvent face à un très grand nombre de variables explicatives potentielles, et choisir celles qui seront incorporées dans le modèle final est une question centrale lors de toute création de modèle.

Dans ce Tutoriel, nous montrons comment les tests et critères de qualité décrits dans les Tutoriels précédents peuvent être utilisés pour selectioner un sous-ensemble réduit, mais efficace de variables explicatives.

-----

Un autre rôle de la sélection de variables est de réduire l'effet d'éventuelles collinéarités entre variables indépendantes, en éliminant des variables fortement corrélées avec d'autres variables. Mais la sélection de variables peut ne pas suffire à éliminer le problème. On doit alors recourir à des techniques spécifiquement conçues pour contourner la collinéarité, comme par exemple la Régression Ridge.

 

 

SELECTION DE VARIABLES EN REGRESSION LINEAIRE MULTIPLE

La sélection de variables comme problème d'optimisation

Utilisation des critères de qualité

Utilisation des tests sur modèles emboîtés

Recherche exhaustive

Recherche gloutonne

Une idée naïve

Algorithmes gloutons

Sélection ascendante (Forward )

Avec le test entre modèles emboîtés

Avec un critère de qualité

Sélection descendante (Backward )

Avec le test entre modèles emboîtés

Avec un critère de qualité

Sélection progressive (Stepwise)

Avertissements

Ensemble sous-optimal

Différentes procédures

Différents points de départ

Stabilité de la sélection

Interprétabilité

Jugement du praticien

TUTORIEL

 _________________________________________________________________

 

 

Voir aussi:

Régression Linéaire Simple

Estimation par Moindres Carrés

Compromis biais-variance

Régression Ridge

 

 

 

 

 

Téléchargez ce Glossaire