|
Tutoriels |
Régression Linéaire Multiple
Si vous n'êtes pas familiarisé avec la Régression Linéaire, nous vous suggérons de lire dans un premier temps l'entrée sur la Régression Linéaire Simple (RLS).
La Régression Linéaire Simple cherchait à "expliquer" les valeurs prises par une variable y par les valeurs prises par une autre variable x, ces deux variables étant supposées avoir entre elles une relation linéaire :
y = ax + b + e(x)
où e est un bruit aléatoire qui dépend a priori de x.
y = b0 + b1x1 + b2x2 + ... + bpxp + e (x)
où :
* p est le nombre de variables explicatives,
* e(x) est un bruit aléatoire dont nous préciserons plus tard la nature, mais qui dépend a priori du point x de l'espace des données défini par les valeurs des xj.
Les données expérimentales sont consituées de n mesures yi , i = 1, 2, ..., n, pour n jeux de valeurs des variables explicatives :
yi = b0 + b1xi1 + b2xi2 + ... + bpxip + e(x)i
Dans cette expression :
* Les bi sont des nombres fixes, mais inconnus.
* Les e(x)i sont des réalisations des e(x).
La Régression Linéaire Simple cherchait à faire passer une droite "au mieux" (c'est à dire au sens des Moindres Carrés) à travers le nuage de points représentant les données dans le plan (x, y). Il va en être de même pour la Régression Linéaire Multiple, si ce n'est que la représentation visuelle devient maintenant impossible, sauf, "de justesse", lorsqu'il n'y a que deux variables explicatives x1 et x2 : la Régression Linéaire Multiple va alors faire passer "au mieux" un plan à travers le nuage de points représentant les données dans l'espace (x1, x2, y).

Dans l'illustration ci-dessus, la plan des Moindres Carrés est celui qui minimise le somme des carrés des longueurs des segments bleus parallèles à l'axe y. Ces longueurs (signées) s'appellent les résidus du modèle. Le plan des Moindres Carrés est donc celui qui minimise la somme des carrés des résidus.
En dimension supérieure, il faut se contenter de dire que la Régression Linéaire Multiple va déterminer l'hyperplan de dimension p minimisant la somme des carrés des écarts (mesurés parallèlement à l'axe y) entre les points représentant les données et l'hyperplan.
Cet hyperplan aura pour équation :
y* = b*0 + b1*x1 + b2*x2 + ... + bp*xp
où les coefficients bj* s'appellent les paramètres estimés du modèle.
Les n valeurs prises par y* pour les différents jeux de valeurs des {xj} sont appelées les valeurs ajustées du modèle. Ainsi, la ième valeur ajustée yi* est :
y*i = b0* + b1*xi1 + b2*xi2 + ... + bp*xip
Dans l'illustration ci-dessus, les valeurs ajustées sont les hauteurs des points du plan des MC à la verticale des points rouges (données).
Une fois construit sur les données disposibles, le modèle sera probablement utilisé par la suite pour prédire les valeurs prises par y pour des jeux de données {x} ne figurant pas dans les données initiales (modélisation prédictive). Ainsi, la valeur de y prédite pour le nouveau point xn+1 = {xn+1,1, ..., xn+1,p} sera :
y*n+1 = b0* + b1*xn+1,1 + b2*xn+1,2 + ... + bp*xn+1,p
et y*n+1 sera appelé la prédiction du modèle pour xn+1.
Il est courant de trouver dans la littérature le terme
"prévision" au lieu de "prédiction". Nous préférons conserver
cette dernière expression pour rester cohérent avec l'expression "modélisation
prédictive".
Nous verrons que la similitude entre les deux problèmes se traduit par une similitude entre les solutions. Nous trouverons des estimateurs b*i des coefficients bi, nous montrerons que ces estimateurs sont sans biais, et nous calculerons leur matrice de covariance.
En formulant ensuite l'hypothèse de normalité sur e, nous montrerons que les estimateurs b*j ont des distributions normales, ce qui nous permettra de construire des tests et des intervalles de confiance sur les valeurs de ces estimateurs.
Nous aborderons enfin la question des prédictions du modèle sur des données nouvelles, et calculerons des intervalles de confiance sur ces prédictions.
Autrement dit, le schéma de l'étude de la Régression Linéaire Multiple est calqué sur celui de la Régression Linéaire Simple, avec des résultats similaires.
Alors pourquoi un chapitre séparé sur la Régression Linéaire Multiple ?
Il y a trois raisons essentielles qui plaident en faveur d'un développement séparé de la Régression Linéaire Multiple.
Bien que similaires à ceux de la Régression Linéaire Simple, les calculs et les résultats sont plus complexes en raison de la présence de plusieurs variables explicatives. Les calculs reposant sur des équations "ordinaires" deviennent lourdes à manipuler, et le recours à des équations matricielles devient alors une nécessité pratique.
Le canevas de la Régression Linéaire Simple restant cependant disponible, la Régression Linéaire Multiple devient alors un excellent outil pédagogique pour une introduction en douceur de certains aspects importants de l'Algèbre Linéaire.
Ce deuxième point est plus important pour le praticien : la Régression Linéaire Multiple est probablement le premier exemple qu'il rencontrera du "compromis biais-variance", et dont nous résumons maintenant les aspects principaux.
Un modèle (qu'il soit prédictif ou descriptif) construit sur la base d'un échantillon ne doit pas contenir "trop" de paramètres (ici, les b*j ) sous peine, au-delà d'un certain point, de voir :
Ces questions sont d'une grande importance
pratique, et vont forcer l'analyste à fournir un effort important pour sélectionner,
parmi les {xj} disponibles (souvent très nombreuses), celles
qui seront retenues dans le modèle final. ![]()
Une autre source de variance pour les paramètres et les prédictions d'un modèle de Régression Linéaire Multiple vient d'une possible collinéarité entre variables explicatives.
Même une sélection sévère des variables explicatives ne peut totalement éliminer le phénomène de collinéarité, et la Régression Linéaire Multiple a développé un certain nombre de techniques spécifiques destinées à lutter contre ce problème, comme la Régression Ridge.
_________________________________________
|
Tutoriel 1 |
Dans ce premier Tutoriel, nous commençons par établir les notations définitives décrivant le problème, et énonçons l'hypothèse de non collinéarité des données.
Nous donnons ensuite du problème une description géométrique dans l'espace des variables, que nous utiliserons à de multiples reprises dans les Tutoriels suivants. Beaucoup des calculs que nous conduirons seront inspirés par des considérations préliminaires sur cette représentation géométrique.
Nous calculons ensuite les valeurs b*j des paramètres du modèle par la méthode des Moindres Carrés. En raison de l'importance fondamentale du résultat, nous en donnons plusieurs démonstrations, ce qui nous permettra de nous familiariser avec la représentation géométrique de la Régression Linéaire Multiple, ainsi qu'avec des notions importantes d'Algèbre Linéaire.
Cette partie est purement géométrique, et ne contient aucune notion de Statistique.
-----
Ce premier Tutoriel devrait convaincre le lecteur de la très grande efficacité de l'Algèbre Linéaire, qui sera notre outil presque exclusif tout au long de ces Tutoriels. Cependant, nous serons amenés à utiliser de nombreux résultats d'Algèbre Linéaire que nous énoncerons sans justification, renvoyant le lecteur intéressé aux multiples ouvrages spécialisés dans ce domaine.
AJUSTEMENT DU MODELE PAR MOINDRES CARRES
|
La matrice des données Ordonnée à l'origine et notations définitives Matrice des données Hypothèse sur la matrice des données Minimisation de l'erreur quadratique L'espace des variables L'espace des solutions L'espace des résidus Moindres Carrés et projection orthogonale Calcul de l'Estimateur des Moindres Carrés Calcul analytique matriciel Position de l'extremum L'extremum est un minimum Calcul par des méthodes géométriques Par les propriétés des opérateurs de projection Par décomposition d'un vecteur sur deux espaces orthogonaux Par orthogonalité de l'espace des solutions et de l'espace des résidus La "Hat matrix" et les leviers Projections orthogonales et coordonnées du vecteur des valeurs ajustées |
||
|
TUTORIEL |
||
_________________________________________________________________________
|
Tutoriel 2 |
Le premier Tutoriel ne traitait que d'un problème de géométrie. Nous introduisons maintenant des éléments de Statistique en considérant que les erreurs de mesures e(x)i sont en fait des variables aléatoires. Les mesures yi sont donc également aléatoires, et, par voie de conséquence, les paramètres estimés bj* sont également des variables aléatoires.
Après avoir énoncé les hypothèses relatives aux propriétés statistiques des erreurs, nous calculons les propriétés statistiques élémentaires du vecteur des paramètres estimés :
* Sa moyenne,
* Et sa matrice de covariance.
Ces résultats sont établis exclusivement par Algèbre Linéaire et énoncés sous forme matricielle, mais ils permettent de retrouver, si besoin est, tous les résultats sur les paramètres individuels, comme par exemple le coefficient de corrélation entre deux paramètres estimés.
-----
Nous concluons par une démonstration simple du Théorème de Gauss-Markov, qui établit que l'estimateur des Moindres Carrés est le meilleur parmi les estimateurs linéaires sans biais du vecteur des paramètres du modèle linéaire.
PROPRIETES STATISTIQUES DES PARAMETRES ESTIMES
|
Les erreurs sont des variables aléatoires Le vecteur des paramètres estimés est aléatoire Centrage des erreurs Homoscédasticité Décorrélation des erreurs Matrice de covariance des erreurs Hypothèse de normalité ? L'estimateur des paramètres est sans biais Matrice de covariance des paramètres estimés Cas général Cas particulier : variables orthogonales Théorème de Gauss-Markov |
||
|
TUTORIEL |
||
_____________________________________________________________
|
Tutoriel 3 |
Le Tutoriel précédent traitait plus particulièrement des propriétés statistiques du vecteur des paramètres b* du modèle.
Celui-ci aborde la question des propriétés statistiques :
* Des résidus,
* Des valeurs ajustées,
* Et des prédictions
de ce modèle.
Le vecteur des résidus joue un rôle important, et nous détaillons dans un premier temps certaines de ses propriétés géométriques avant de décrire ses propriétés statistiques.
-----
Nous terminons avec la question fondamentale pour le praticien de l'estimation de la variance des erreurs s² : nous identifierons un estimateur sans biais de cette variance.
A l'aide de ce résultat capital, nous identifierons enfin un estimateur des variances (et donc des écarts-type) des paramètres bj*, grandeurs essentielles pour l'évaluation ultérieure de la crédibilité du modèle.
RESIDUS, VALEURS AJUSTEES ET ERREURS DE PREDICTION.
VARIANCES ESTIMEES DES ERREURS ET DES PARAMETRES.
|
Résidus Définition des résidus Propriétés du vecteur des résidus Projection du vecteur des mesures Projection du vecteur des erreurs Orthogonalité des résidus et des valeurs ajustées Espérance du vecteur des résidus Matrice de covariance des résidus Valeurs ajustées Espérance des valeurs ajustées Matrice de covariance des valeurs ajustées Covariance des résidus et des valeurs ajustées Propriétés des erreurs de prédictions Moyenne de l'erreur de prédiction Variance de l'erreur de prédiction Première forme Deuxième forme Estimation sans biais de la variance des erreurs Estimation de la variance des paramètres |
||
|
TUTORIEL |
||
_______________________________________________________________
|
Tutoriel 4 |
Le modèle étant maintenant construit se pose la question : "Le modèle rend-il compte convenablement des données ?". Intuitivement, ce sera la cas si les valeurs des résidus sont faibles. Le Coefficient de détermination, noté R² apporte une réponse qui a l'avantage de recevoir une interprétation géométrique simple.
Dans ce court Tutoriel, nous décrivons l'origine géométrique du R², et en donnons les deux formes couramment utilisées.
Nous décrivons également sans justification la faiblesse du R², et en donnons sa version améliorée, le "R² ajusté".
COEFFICIENT DE DETERMINATION R²
COEFFICIENT DE DETERMINATION AJUSTE
|
Coefficient de détermination R² Origine de la variabilité des mesures Interprétation géométrique Analyse de la variance Adéquation du modèle Coefficient de détermination ajusté |
||
|
TUTORIEL |
||
________________________________________________________
|
Tutoriel 5 |
Dans les Tutoriels précédents, nous avons formulé les hypothèses suivantes sur les données :
* Relation linéaire entre les variables explicatives {xj} et la variable à expliquer y,
* Erreurs de mesure ei de moyenne nulle, décorrélées, et de variance uniforme (homoscédasticité),
mais nous n'avons supposé aucune forme particulière des distributions de probabilité des erreurs e.
Pourtant, la méthode des Moindres Carrés s'est avérée être assez puissante pour produire des résultats importants sur les propriétés statistiques des estimateurs.
Nous allons maintenant conserver les hypothèses précédentes, mais en y ajoutant une hypothèse supplémentaire : les ei sont des v.a. normales (ou "gaussiennes"). Sous forme vectorielle, les hypothèses relatives aux erreurs se résument donc par l'expression :
e~N(0, s²In)
où In est la matrice unitaire d'ordre n.
Cette hypothèse va ouvrir de nouvelles directions d'étude de la Régression Linéaire Multiple :
________
Dans ce Tutoriel, nous abordons les conséquences de l'hypothèse normale sur les distributions des divers estimateurs déjà rencontrés. Les intervalles de confiance et tests seront abordés dans les Tutoriels suivants.
-----
Nous avertissons le lecteur que le résultat fondamental sur la distribution de la variance estimée des erreurs est donné sans démonstration. Celle-ci repose en effet sur le "Théorème de Cochran" que nous énonçons, mais dont la démonstration dépasse le cadre de ce Glossaire.
L'HYPOTHESE NORMALE
|
Estimation des paramètres par Maximum de Vraisemblance La log-vraisemblance Estimation des paramètres Estimation de la variance des erreurs Distributions des estimateurs (variance connue) Distribution des paramètres estimés Distribution de la variance estimée des erreurs (sans démonstration) Indépendance des paramètres estimés et de la variance estimée des erreurs Distributions des paramètres estimés (variance inconnue) Distribution des erreurs de prédictions Variance des erreurs connue Variance des erreurs inconnue |
||
|
TUTORIEL |
||
______________________________________________________________________
|
Tutoriel 6 |
Sous l'hypothèse normale, nous avons calculé les distributions des paramètres estimés, de la variance estimée et des prédictions. Il est donc très simple de donner les intervalles de confiance sur les valeurs calculées de ces quantités, ce que nous faisons dans ce court Tutoriel.
La notion de Région de Confiance sur plusieurs paramètres considérés simultanément, bien qu'assez intuitive, et difficile sur le plan théorique, et nous ne faisons que l'évoquer dans une note. Cependant, comme certains logiciels donnent à l'utilisateur la possibilité de tracer des ellipses de confiance sur des paires de paramètres, nous en donnons quelques règles simples d'interprétation.
INTERVALLES DE CONFIANCE
|
Intervalles de confiance sur les paramètres estimés Intervalles de confiance Note sur les régions de confiance Intervalles de confiance sur la variance estimée Intervalles de confiance sur les prédictions |
||
|
TUTORIEL |
||
___________________________________________________
|
Tutoriel 7 |
Le modèle une fois construit se pose la question de la pertinence des variables explicatives le composant. Il est naturel de se demander pour chaque variable explicative s'il était bien nécessaire de l'incorporer dans le modèle. Que penser d'une situation dans laquelle un nouveau modèle construit sans cette variable serait à peine différent de celui construit avec cette variable ? Un élément de réponse vient du compromis biais-variance, qui nous recommande, toutes choses égales par ailleurs, de n'utiliser que le moins de variables possible pour construire un modèle.
Ce Tutoriel aborde donc la question suivante : "Construisons dans un premier temps un modèle sur un certain ensemble de variables explicatives. Puis retirons certaines variables de cet ensemble, et construisons un deuxième modèle sur cet ensemble réduit de variables (les deux modèles sont alors dits "emboîtés"). Les deux modèles ainsi obtenus sont-ils significativement différents ?"
Répondre à cette question exige de donner un sens à l'expression "significativement différents". Nous le ferons en identifiant une statistique dont la distribution peut être calculée quand les deux modèles sont en fait identiques. Un test pourra alors être déduit de cette distribution.
La statistique du test peut être construite par la méthode dite "du rapport de vraisemblance maximale". Cette approche est très technique, et nous lui préférons une autre approche s'appuyant sur l'intuition géométrique. Des raisonnements quelque peu heuristiques mais simples nous conduirons à la définition de la statistique du test.
Par contre, l'identification de la distribution de cette statistique reposera à nouveau sur le Théorème de Cochran, que nous évoquerons sans démonstration.
-----
Nous étudierons enfin deux cas particuliers de modèles emboîtés :
* Une seule variable est retirée. Ce cas peut également être abordé par un test de Student, et nous verrons alors que les deux tests sont en fait équivalents.
* Toutes les variables sont retirées (sauf l'ordonnée à l'origine). Le test (dit "test global de Fisher", ou "test du R²") porte alors sur la signification du modèle lui-même.
TESTS SUR MODELES EMBOÎTES
|
Variables non significatives Tester la signification d'une variable Pourquoi détecter les variables non significatives ? Modèles emboîtés Cas particuliers de modèles emboîtés Une seule variable Toutes les variables Test entre modèles emboîtés Le nouveau sous-espace de projection Construction de la statistique du test Distribution de la statistique du test Indépendance du numérateur et du dénominateur Distribution du numérateur Distribution du dénominateur Distribution de la statistique La statistique du test comme fonction de R² Le test Test de Student sur une seule variable Le test sur modèles emboîtés Le test de Student Equivalence des deux tests Test global de Fisher sur toutes les variables |
||
|
TUTORIEL |
||
___________________________________________________________
|
Tutoriel 8 |
Un même jeu de données conduit toujours à la construction de plusieurs modèles, qui différeront par :
* Le choix des variables explicatives,
* Et éventuellement la méthode de calcul des paramètres,
et la question se pose naturellement de choisir, parmi ces modèles, le "meilleur".
Ce Tutoriel est consacré à la description des différentes techniques de choix entre modèles construits sur un même jeu de données. Nous verrons que les techniques de comparaison sont nombreuses, et malheureusement difficiles à comparer entre elles.
COMPARER DES MODELES DE RLM
|
Trois définitions de la "qualité" d'un modèle La voie royale : données abondantes Situation réaliste : peu de données Validation croisée Test entre modèles emboîtés R² ajusté Le R² augmente en ajoutant des variables Le R² ajusté Cp de Mallows Théorie Interprétation et utilisation Vraisemblance pénalisée Principe général AIC (Akaike) BIC (Schwarz) Comparaison des critères |
||
|
TUTORIEL |
||
___________________________________________________
|
Tutoriel 9 |
Nous nous référons à nouveau au compromis biais-variance pour affirmer que, pour un niveau de performance donné sur l'ensemble des données ayant participé à la construction du modèle, un petit modèle (peu de variables) est préférable à un gros modèle.
L'analyste fait souvent face à un très grand nombre de variables explicatives potentielles, et choisir celles qui seront incorporées dans le modèle final est une question centrale lors de toute création de modèle.
Dans ce Tutoriel, nous montrons comment les tests et critères de qualité décrits dans les Tutoriels précédents peuvent être utilisés pour selectioner un sous-ensemble réduit, mais efficace de variables explicatives.
-----
Un autre rôle de la sélection de variables est de réduire l'effet d'éventuelles collinéarités entre variables indépendantes, en éliminant des variables fortement corrélées avec d'autres variables. Mais la sélection de variables peut ne pas suffire à éliminer le problème. On doit alors recourir à des techniques spécifiquement conçues pour contourner la collinéarité, comme par exemple la Régression Ridge.
SELECTION DE VARIABLES EN REGRESSION LINEAIRE MULTIPLE
|
La sélection de variables comme problème d'optimisation Utilisation des critères de qualité Utilisation des tests sur modèles emboîtés Recherche exhaustive Recherche gloutonne Une idée naïve Algorithmes gloutons Sélection ascendante (Forward ) Avec le test entre modèles emboîtés Avec un critère de qualité Sélection descendante (Backward ) Avec le test entre modèles emboîtés Avec un critère de qualité Sélection progressive (Stepwise) Avertissements Ensemble sous-optimal Différentes procédures Différents points de départ Stabilité de la sélection Interprétabilité Jugement du praticien |
||
|
TUTORIEL |
||
_________________________________________________________________
|
|
Voir aussi: