Tutoriels

Régression Linéaire Multiple

Si vous n'êtes pas familiarisé avec la Régression Linéaire, nous vous suggérons de lire dans un premier temps l'entrée sur la Régression Linéaire Simple (RLS).

Principe de la Régression Linéaire Multiple

La Régression Linéaire Simple cherchait à "expliquer" les valeurs prises par une variable y par les valeurs prises par une autre variable x, ces deux variables étant supposées avoir entre elles une relation linéaire :

y = ax + b + ε(x)

ε est un bruit aléatoire qui dépend a priori de x.

Génération des données

Le problème traité par la Régression Linéaire Multiple (RLM) est le même, si ce n'est que l'on cherche à expliquer les valeurs de y non pas par une seule variable x, mais par plusieurs variables {xj}, dites "variables explicatives". En changeant légèrement les notations précédentes, on suppose donc que y et les {xj} sont liées par une relation linéaire :

y = β0 + β1x1 + β2x2 + ... + βpxp + ε (x)

où :

    * p est le nombre de variables explicatives,

    * ε(x) est un bruit aléatoire dont nous préciserons plus tard la nature, mais qui dépend a priori du point x de l'espace des données défini par les valeurs des xj.

Les données expérimentales sont constituées de n mesures yi , i = 1, 2, ..., n, pour n jeux de valeurs des variables explicatives :

yi  = β0 + β1xi1 + β2xi2 + ... + βpxip + ε(x)i 

Dans cette expression :

    * Les βi sont des nombres fixes, mais inconnus.

    * Les ε(x)i sont des réalisations de ε(x).

Le modèle

La Régression Linéaire Simple cherchait à faire passer une droite "au mieux" (au sens des Moindres Carrés) à travers le nuage de points représentant les données dans le plan (x, y). Il va en être de même pour la Régression Linéaire Multiple, si ce n'est que la représentation visuelle devient maintenant impossible, sauf, "de justesse", lorsqu'il n'y a que deux variables explicatives x1 et x2 : la Régression Linéaire Multiple va alors faire passer "au mieux" un plan à travers le nuage de points représentant les données dans l'espace (x1, x2, y).

 

 

Dans l'illustration ci-dessus, la plan des Moindres Carrés est celui qui minimise le somme des carrés des longueurs des segments bleus parallèles à l'axe y. Ces longueurs (signées) s'appellent les résidus du modèle. Le plan des Moindres Carrés est donc celui qui minimise la somme des carrés des résidus.

 

En dimension supérieure, il faut se contenter de dire que la Régression Linéaire Multiple va déterminer l'hyperplan de dimension p minimisant la somme des carrés des écarts (mesurés parallèlement à l'axe y) entre les points représentant les données et l'hyperplan.

Cet hyperplan aura pour équation :

y* = β*0 + β1*x1 + β2*x2 + ... + βp*xp

où les coefficients βj* s'appellent les paramètres estimés du modèle.

Valeurs ajustées

Les n valeurs prises par y* pour les différents jeux de valeurs des {xj} sont appelées les valeurs ajustées du modèle. Ainsi, la ième valeur ajustée yi* est :

y*i  = β0* + β1*xi1 + β2*xi2 + ... + βp*xip

Dans l'illustration ci-dessus,  les valeurs ajustées sont les hauteurs des points du plan des MC à la verticale des points rouges (données).

Prédictions

Une fois construit sur les données disposibles, le modèle sera probablement utilisé par la suite pour prédire les valeurs prises par y pour des jeux de données {x} ne figurant pas dans les données initiales (modélisation prédictive). Ainsi, la valeur de y prédite pour le nouveau point xn+1 = {xn+1,1, ..., xn+1,p} sera :

y*n+1  = β0* + β1*xn+1,1 + β2*xn+1,2 + ... + βp*xn+1,p

et y*n+1 sera appelé la prédiction du modèle pour xn+1.


Il est courant de trouver dans la littérature le terme "prévision" au lieu de "prédiction". Nous préférons conserver cette dernière expression pour rester cohérent avec l'expression "modélisation prédictive".

Similitudes entre Régressions Linéaires Simple et Multiple

Nous verrons que la similitude entre les deux problèmes se traduit par une similitude entre les solutions. Nous trouverons des estimateurs β*i des coefficients βi, nous montrerons que ces estimateurs sont sans biais, et nous calculerons leur matrice de covariance.

En formulant ensuite l'hypothèse de normalité sur ε, nous montrerons que les estimateurs β*j ont des distributions normales, ce qui nous permettra de construire des tests et des intervalles de confiance sur les valeurs de ces estimateurs.

Nous aborderons enfin la question des prédictions du modèle sur des données nouvelles, et calculerons des intervalles de confiance sur ces prédictions.

Autrement dit, le schéma de l'étude de la Régression Linéaire Multiple est calqué sur celui de la Régression Linéaire Simple, avec des résultats similaires.

Alors pourquoi un chapitre séparé sur la Régression Linéaire Multiple ?

Différences entre Régressions Linéaires Simple et Multiple

Il y a trois raisons essentielles qui plaident en faveur d'un développement séparé de la Régression Linéaire Multiple.

Complexité des calculs, calcul matriciel

Bien que similaires à ceux de la Régression Linéaire Simple, les calculs et les résultats sont plus complexes en raison de la présence de plusieurs variables explicatives. Les calculs reposant sur des équations "ordinaires" deviennent lourdes à manipuler, et le recours à des équations matricielles devient alors une nécessité pratique.

Le canevas de la Régression Linéaire Simple restant cependant disponible, la Régression Linéaire Multiple devient alors un excellent outil pédagogique pour une introduction en douceur de certains aspects importants de l'Algèbre Linéaire.

Sélection de variables

Ce deuxième point est plus important pour le praticien : la Régression Linéaire Multiple est probablement le premier exemple qu'il rencontrera du "compromis biais-variance", et dont nous résumons maintenant les aspects principaux.

Un modèle (qu'il soit prédictif ou descriptif) construit sur la base d'un échantillon ne doit pas contenir "trop" de paramètres (ici, les β*j ) sous peine, au-delà d'un certain point, de voir :

    * Ses perfomances s'améliorer sur l'échantillon, mais se dégrader sur des données nouvelles en raison d'une variance exagérée des estimations des valeurs prédites.

    * Les valeurs de ses paramètres perdre toute signification, là encore en raison de leur grande variance.

 

Ces questions sont d'une grande importance pratique, et vont forcer l'analyste à fournir un effort important pour sélectionner, parmi les {xj} disponibles (souvent très nombreuses), celles qui seront retenues dans le modèle final.

Colinéarité des variables explicatives

Une autre source de variance pour les paramètres et les prédictions d'un modèle de Régression Linéaire Multiple vient d'une possible colinéarité entre variables explicatives.

Même une sélection sévère des variables explicatives ne peut totalement éliminer le phénomène de colinéarité, et la Régression Linéaire Multiple a développé un certain  nombre de techniques spécifiques destinées à lutter contre ce problème, comme la Régression Ridge.

Moindres Carrés Généralisés

Une hypothèse du modèle standard de Régression Linéaire est que les erreurs de mesure ε :

    * Ont toutes la même variance (homoscédasticité),

    * Et sont décorrélées,

ce qui se traduit par :

Σ = σ²In

Σ est la matrice de covariance des erreurs, et In est la matrice unité d'ordre n.

Cette hypothèse, très forte, est rarement satisfaite par des données réelles. Il est donc naturel de se demander ce qui peut être sauvegardé de la RLM quand la partie déterministe des données est encore linéaire, mais lorsque la matrice de covariance des erreurs n'est plus proportionnelle à In.

En fait, beaucoup de choses peuvent être sauvegardées comme il est décrit dans l'entrée sur les Moindres Carrés Généralisés.

Régression polynomiale

Dans l'expression "régression linéaire", le terme "linéaire" fait référence non pas au fait que le modèle est linéaire dans les régresseurs, mais au fait que le modèle est une fonction linéaire des paramètres. Ainsi, le modèle :

y = β0 + β1.log(x1) + β2.exp(x2

qui n'est absolument pas linéaire dans les variables, est linéaire dans les paramètres, et tous les résultats de la RLM lui sont applicables.

L'introduction de fonctions non linéaires des variables dans un modèle de RLM vient du désir d'épouser au mieux la vraie fonction de régression lorsque l'on soupçonne celle-ci de ne pas être un simple hyperplan, mais d'être incurvée. En jouant sur les mots, on peut donc dire que la que la Régression Linéaire (dans les paramètres) peut parfaitement appréhender une fonction de régression non linéaire (dans les variables).

 En l'absence d'information précise sur cette fonction de régression, on se contente souvent d'ajouter au modèle "de base" des termes qui sont des monômes dans les régresseurs. Par exemple, on considérera le modèle :

y = β0 + β1x1 + β2x2 + β3 x1x2 + β4 x12 + β5 x22 

qui est certainement plus souple que le modèle purement linéaire dans les variables, celui-ci n'étant qu'un cas particulier du modèle général défini par la nullité des trois derniers coefficients.

Un modèle tel que celui décrit ci-dessus s'appelle un modèle polynomial pour des raisons évidentes.

La tentation d'introduire dans le modèle des termes de degrés de plus en plus élevés doit être tempérée par la prise en compte du compromis biais-variance, déjà évoqué dans le contexte de la sélection de variables. De fait, la construction d'un modèle polynomial doit impérativement s'accompagner d'une campagne sévère de sélection de variables, les régresseurs étant ici fortement corrélés par nature même.

_______________________________________________________

 

 

 

Tutoriel 1

 

Dans ce premier Tutoriel, nous commençons par établir les notations définitives décrivant le problème, et énonçons l'hypothèse de non colinéarité des données.

Nous donnons ensuite du problème une description géométrique dans l'espace des variables, que nous utiliserons à de multiples reprises dans les Tutoriels suivants. Beaucoup des calculs que nous conduirons seront inspirés par des considérations préliminaires sur cette représentation géométrique.

Nous calculons ensuite les valeurs β*j des paramètres du modèle par la méthode des Moindres Carrés. En raison de l'importance fondamentale du résultat, nous en donnons plusieurs démonstrations, ce qui nous permettra de nous familiariser avec la représentation géométrique de la Régression Linéaire Multiple, ainsi qu'avec des notions importantes d'Algèbre Linéaire.

Cette partie est purement géométrique, et ne contient aucune notion de Statistique.

-----

Ce premier Tutoriel devrait convaincre le lecteur de la très grande efficacité de l'Algèbre Linéaire, qui sera notre outil presque exclusif tout au long de ces Tutoriels. Cependant, nous serons amenés à utiliser de nombreux résultats d'Algèbre Linéaire que nous énoncerons sans justification, renvoyant le lecteur intéressé aux multiples ouvrages spécialisés dans ce domaine.

 

 

 

AJUSTEMENT DU MODELE PAR MOINDRES CARRES

La matrice des données

Ordonnée à l'origine et notations définitives

Matrice des données

Hypothèse sur la matrice des données

Minimisation de l'erreur quadratique

L'espace des variables

L'espace des solutions

L'espace des résidus

Moindres Carrés et projection orthogonale

Propriété d'invariance des valeurs ajustées

Calcul de l'Estimateur des Moindres Carrés

Calcul analytique matriciel

Position de l'extremum

L'extremum est un minimum

Calcul par des méthodes géométriques

Par les propriétés des opérateurs de projection

Par décomposition d'un vecteur sur deux sous-espaces orthogonaux

Par orthogonalité de l'espace des solutions et de l'espace des résidus

La "matrice chapeau"

Définition de la matrice chapeau

Première approche des leviers

Propriété d'invariance de la matrice chapeau

Projections orthogonales et coordonnées du vecteur des valeurs ajustées

 

TUTORIEL

 _________________________________________________________________________

 

 

Tutoriel 2

 

Le premier Tutoriel ne traitait que d'un problème de géométrie. Nous introduisons maintenant des éléments de Statistique en considérant que les erreurs de mesures ε(x)i sont en fait des variables aléatoires. Les mesures yi sont donc également aléatoires, et, par voie de conséquence, les paramètres estimés βj* sont également des variables aléatoires.

Après avoir énoncé les hypothèses relatives aux propriétés statistiques des erreurs, nous calculons les propriétés statistiques élémentaires du vecteur des paramètres estimés :

    * Sa moyenne,

    * Et sa matrice de covariance.

Ces résultats sont établis exclusivement par Algèbre Linéaire et énoncés sous forme matricielle, mais ils permettent de retrouver, si besoin est, tous les résultats sur les paramètres individuels, comme par exemple le coefficient de corrélation entre deux paramètres estimés.

-----

L'estimateur des Moindres Carrés β* est le meilleur parmi les estimateurs linéaires sans biais du vecteur des paramètres β du modèle linéaire. Pour cette raison, la littérature anglo-saxonne le qualifie parfois de "BLUE", acronyme de "Best Linear Unbiased Estimator".

Ce résultat, connu sous le nom de "théorème de Gauss-Markov", est démontré ici.

 

 

 

PROPRIETES STATISTIQUES DES PARAMETRES ESTIMES

Les erreurs sont des variables aléatoires

Le vecteur des paramètres estimés est aléatoire

Centrage des erreurs

Homoscédasticité

Décorrélation des erreurs

Matrice de covariance des erreurs

Hypothèse de normalité ?

L'estimateur des paramètres est sans biais

Matrice de covariance des paramètres estimés

Cas général

Cas particulier : variables orthogonales

TUTORIEL

 ___________________________________________________________

 

 

Tutoriel 3

 

Le Tutoriel précédent traitait plus particulièrement des propriétés statistiques du vecteur des paramètres β* du modèle.

Celui-ci aborde la question des propriétés statistiques :

    * Des résidus,

    * Des valeurs ajustées,

    * Et des prédictions

de ce modèle.

Le vecteur des résidus joue un rôle important, et nous détaillons dans un premier temps certaines de ses propriétés géométriques avant de décrire ses propriétés statistiques.

-----

Nous terminons avec la question fondamentale pour le praticien de l'estimation de la variance des erreurs σ² : nous identifierons un estimateur sans biais de cette variance.

A l'aide de ce résultat capital, nous identifierons enfin un estimateur des variances (et donc des écarts-type) des paramètres βj*, grandeurs essentielles pour l'évaluation ultérieure de la crédibilité du modèle.

 

 

RESIDUS, VALEURS AJUSTEES ET ERREURS DE PREDICTION.

VARIANCES ESTIMEES DES ERREURS ET DES PARAMETRES.

Résidus

Définition des résidus

Propriétés du vecteur des résidus

Projection du vecteur des mesures

Propriété d'invariance des résidus

Projection du vecteur des erreurs

Orthogonalité des résidus et des valeurs ajustées

Espérance du vecteur des résidus

Matrice de covariance des résidus

Valeurs ajustées

Espérance des valeurs ajustées

Matrice de covariance des valeurs ajustées

Covariance des résidus et des valeurs ajustées

Propriétés des erreurs de prédictions

Moyenne de l'erreur de prédiction

Variance de l'erreur de prédiction

Première forme

Deuxième forme

Estimation sans biais de la variance des erreurs

Estimation de la variance des paramètres

TUTORIEL

 _______________________________________________________________

 

 

Tutoriel 4

 

Le modèle linéaire a été maintenant ajusté par la méthode des Moindres Carrés Ordinaires (MCO), et le modèle final est le meilleur des modèles possibles aus sens des Moindres Carrés. Cependant, "le meilleur possible" ne veut pas nécessairement dire "bon", et il convient donc d'identifier un critère de mesure de la qualité de l'ajustement du modèle aux données.

Le critère d'ajustement le plus répandu est le coefficient de détermination R², décrit dans ce Tutoriel. Le R² existe sous plusieurs formes diversement représentées dans les logiciels, et dont il est important de comprendre les propriétés afin de pouvoir interpréter les résultats d'une Régression Linéaire.

 

 

COEFFICIENT DE DETERMINATION

R² NON CENTRE, R² CENTRE, R² AJUSTE

Coefficient de détermination R ² non centré

Le R ² non centré

Interprétation du R ² non centré

Faiblesse du R ² non centré

Coefficient de détermination R ² centré

Modèle avec constante

Définition du R ² centré

Coefficient de corrélation multiple

Interprétation géométrique

Modèles sans constante

Coefficient de détermination ajusté

Le compromis biais-variance

Le R² ajusté

TUTORIEL

 __________________________________________________

 

 

Tutoriel 5

 

Dans les Tutoriels précédents, nous avons formulé les hypothèses suivantes sur les données :

    * Relation linéaire entre les variables explicatives {xj} et la variable à expliquer y,

    * Erreurs de mesure εi de moyenne nulle, décorrélées, et de variance uniforme (homoscédasticité),

mais nous n'avons supposé aucune forme particulière des distributions de probabilité des erreurs ε.

Pourtant, la méthode des Moindres Carrés s'est avérée être assez puissante pour produire des résultats importants sur les propriétés statistiques des estimateurs.

 

Nous allons maintenant conserver les hypothèses précédentes, mais en y ajoutant une hypothèse supplémentaire : les εi sont des v.a. normales (ou "gaussiennes"). Sous forme vectorielle, les hypothèses relatives aux erreurs se résument donc par l'expression :

ε ~ N(0, σ²In)

In est la matrice unitaire d'ordre n.

Cette hypothèse va ouvrir de nouvelles directions d'étude de la Régression Linéaire Multiple :

  1. Les paramètres vont maintenant pouvoir être estimés par une méthode statistique (en l'occurence, la méthode du Maximum de Vraisemblance) plus générale que la méthode des Moindres Carrés.
  2. Les distributions de probabilité des paramètres, variance estimée et prédictions seront maintenant connues. Ceci permettra l'élaboration d'intervalles de confiance portant sur les valeurs de ces paramètres ainsi que sur les valeurs des mesures prédites par le modèle.
  3. De même, il sera possible d'élaborer des tests portant sur les valeurs des paramètres, et ainsi de commencer à étudier le rôle des variables individuelles dans les performances du modèle.

 ________

Dans ce Tutoriel, nous abordons les conséquences de l'hypothèse normale sur les distributions des divers estimateurs déjà rencontrés. Les intervalles de confiance et tests seront abordés dans les Tutoriels suivants.

 

 

 

L'HYPOTHESE NORMALE

Estimation des paramètres par Maximum de Vraisemblance

La log-vraisemblance

Estimation des paramètres

Estimation de la variance des erreurs

Distributions des estimateurs (variance connue)

Distribution des paramètres estimés

Distribution de la variance estimée des erreurs

Indépendance des paramètres estimés et de la variance estimée des erreurs

Distributions des paramètres estimés (variance inconnue)

Distribution des erreurs de prédictions

Variance des erreurs connue

Variance des erreurs inconnue

TUTORIEL

 ______________________________________________________________________

 

 

Tutoriel 6

 

Sous l'hypothèse normale, nous avons calculé les distributions des paramètres estimés, de la variance estimée et des prédictions. Il est donc très simple de donner les intervalles de confiance sur les valeurs calculées de ces quantités, ce que nous faisons dans ce court Tutoriel.

La notion de Région de Confiance sur plusieurs paramètres considérés simultanément, bien qu'assez intuitive, et difficile sur le plan théorique, et nous ne faisons que l'évoquer dans une note. Cependant, comme certains logiciels donnent à l'utilisateur la possibilité de tracer des ellipses de confiance sur des paires de paramètres, nous en donnons quelques règles simples d'interprétation.

 

INTERVALLES DE CONFIANCE

Intervalles de confiance sur les paramètres estimés

Intervalles de confiance

Note sur les régions de confiance

Intervalles de confiance sur la variance estimée

Intervalles de confiance sur les prédictions

TUTORIEL

 ___________________________________________________

 

 

Un premier modèle de RLM a été construit. C'est la partie la plus facile du travail de l'analyste, puisqu'elle ne nécessite qu'un clic de souris. Maintenant commence la partie longue, difficile et aux résultats incertains : améliorer le modèle jusqu'à ce qu'il apparaisse qu'aucun effort supplémentaire ne permette d'obtenir un meilleur modèle. Alors, et alors seulement le modèle pourra-t-il être remis à son utilisateur final, accompagné des estimations de ses performances et des informations sur les données que la phase d'amélioration aura permis de réunir.

Nous divisons, un peu arbitrairement, cette phase d'amélioration en trois parties :

    * Sélection de variables.

    * Vérification des hypothèses supportant la théorie de la RLM, et mise en œuvre d'actions correctrices si ces hypothèses ne sont pas vérifiées.

    * Détection des observations ayant une influence particulièrement importante sur la structure et sur les performances du modèle (cette question est traitée ici).

 

La distinction entre ces trois parties est effectivement arbitraire car leurs mises en œuvre se chevauchent souvent et elles doivent être appelées de façon répétitive dans un ordre dicté par les résultats des actions précédentes, et ce à chaque fois qu'un nouveau modèle est construit. Rappelons en effet que rien ne peut être connu d'un nouveau modèle par simple considération d'autres modèles construits préalablement. Un modèle doit être ajusté aux données avant de pouvoir en tirer quelque information que ce soit.

 

 

 

 

Les trois Tutoriels suivants sont consacrés à la question de la sélection de variables.

    * Le Tutoriel 7 décrit le test fondamental dit "entre modèles emboîtés". Son objectif est de déterminer si l'ajout de variables à un modèle (ou le retrait de variables de ce modèle) provoque un changement significatif des performances du modèle.

Le test n'est pas en lui-même une méthode de sélection de variables, mais il est utilisé par plusieurs stratégies efficaces de sélections de variables.

    * Le Tutoriel 8 décrit divers critères de qualité (R² ajusté, Cp de Mallows, AIC, BIC) utilisables pour comparer les performances de plusieurs modèles. Ces critères peuvent également être utilisés par des processus de sélection de variables.

    * Le Tutoriel 9 traite des différentes stratégies de sélection de variables. Il expose comment les outils développés dans les deux Tutoriels précédents sont mis en œuvre pour identifier un bon sous-ensemble de régresseurs.

 

 

 

 

Tutoriel 7

 

Ce Tutoriel aborde la question suivante : "Construisons dans un premier temps un modèle sur un certain ensemble de variables explicatives. Puis retirons certaines variables de cet ensemble, et construisons un deuxième modèle sur cet ensemble réduit de variables  (les deux modèles sont alors dits "emboîtés"). Les deux modèles ainsi obtenus sont-ils significativement différents ?"

Répondre à cette question exige de donner un sens à l'expression "significativement différents". Nous le ferons en identifiant une statistique dont la distribution peut être calculée quand les deux modèles sont en fait identiques. Un test pourra alors être déduit de cette distribution.

Ce test entre modèles emboîtés peut être construit comme un test du Rapport de Vraisemblance. Comme souvent avec ce type de test, le calcul de la statistique du test est très lourd, et nous ne le développerons pas. Mais, par chance, cette même statistique peut être obtenue par des raisonnements géométriques plus concis et plus intuitifs que nous exposerons en détail.

L'identification de la distribution de cette statistique reposera sur le Théorème de Cochran.

-----

Nous étudierons enfin deux cas particuliers de modèles emboîtés :

    * Une seule variable est retirée. Ce cas peut également être abordé par un test de Student, et nous verrons alors que les deux tests sont en fait équivalents.

    * Toutes les variables sont retirées (sauf l'ordonnée à l'origine). Le test (dit "test global de Fisher", ou "test du R²") porte alors sur la signification du modèle lui-même.

 

 

TESTS SUR MODELES EMBOÎTES

Comparaison de modèles : préliminaires

Sélection de variables et compromis biais-variance

Trois façons de comparer des modèles

Critère de qualité

Simulation

Test entre modèles emboîtés

Test entre modèles emboîtés

Modèles emboîtés

Les hypothèses du test

Le test est un Test du Rapport de Vraisemblance

Le nouveau sous-espace de projection

Construction de la statistique du test

Distribution de la statistique du test

Indépendance du numérateur et du dénominateur

Distribution du numérateur

Distribution du dénominateur

Distribution de la statistique

La statistique du test comme fonction de R²

Le test

Test de Student sur une seule variable

Le test sur modèles emboîtés

Le test de Student

Equivalence des deux tests

Test global de Fisher sur toutes les variables

TUTORIEL

 ___________________________________________________________

 

Tutoriel 8

 

Un même jeu de données conduit toujours à la construction de plusieurs modèles, qui différeront par :

    * Le choix des variables explicatives,

    * Et éventuellement la méthode de calcul des paramètres,

et la question se pose naturellement de choisir, parmi ces modèles, le "meilleur".

 

Ce Tutoriel est consacré à la description des différentes techniques de choix entre modèles construits sur un même jeu de données. Nous verrons que les techniques de comparaison sont nombreuses, et malheureusement difficiles à comparer entre elles.

 

 

 COMPARER DES MODELES DE RLM

Trois définitions de la "qualité" d'un modèle

La voie royale : données abondantes

Situation réaliste : peu de données

Validation croisée

Test entre modèles emboîtés

R² ajusté

Le R² augmente en ajoutant des variables

Le R² ajusté

Cp de Mallows

Théorie

 Interprétation et utilisation

Vraisemblance pénalisée

Principe général

AIC  (Akaike)

BIC  (Schwarz)

Comparaison des critères 

TUTORIEL

 ___________________________________________________

 

Tutoriel 9

 

Nous nous référons à nouveau au compromis biais-variance pour affirmer que, pour un niveau de performance donné sur l'ensemble des données ayant participé à la construction du modèle, un petit modèle (peu de variables) est préférable à un gros modèle.

L'analyste fait souvent face à un très grand nombre de variables explicatives potentielles, et choisir celles qui seront incorporées dans le modèle final est une question centrale lors de toute création de modèle.

Dans ce Tutoriel, nous montrons comment les tests et critères de qualité décrits dans les Tutoriels précédents peuvent être utilisés pour selectioner un sous-ensemble réduit, mais efficace de variables explicatives.

-----

Un autre rôle de la sélection de variables est de réduire l'effet d'éventuelles colinéarités entre variables indépendantes, en éliminant des variables fortement corrélées avec d'autres variables. Mais la sélection de variables peut ne pas suffire à éliminer le problème. On doit alors recourir à des techniques spécifiquement conçues pour contourner la colinéarité, comme par exemple la Régression Ridge.

 

 

SELECTION DE VARIABLES EN REGRESSION LINEAIRE MULTIPLE

La sélection de variables comme problème d'optimisation

Utilisation des critères de qualité

Utilisation des tests sur modèles emboîtés

Recherche exhaustive

Recherche gloutonne

Une idée naïve

Algorithmes gloutons

Sélection ascendante (Forward )

Avec le test entre modèles emboîtés

Avec un critère de qualité

Sélection descendante (Backward )

Avec le test entre modèles emboîtés

Avec un critère de qualité

Sélection progressive (Stepwise)

Avertissements

Ensemble sous-optimal

Différentes procédures

Différents points de départ

Stabilité de la sélection

Interprétabilité

Jugement du praticien

TUTORIEL

 _______________________________________________________

 

 

Tutoriel 10

 

La validité d'un modèle de RLM, y compris les tests sur les paramètres et les diverses procédures de sélection de variables, repose sur un ensemble d'hypothèses très strictes :

    1) Le processus qui a engendré les données et effectivement linéaire.

    2) La matrice des données X est de rang plein.

    3) Les erreurs sont non corrélées et ont des variances identiques (homoscédasticité).

    4) Les erreurs ont des distributions normales.

 

Un logiciel produira toujours des estimations des paramètres ainsi que des valeurs ajustées (pour autant que la matrice des données soit de rang plein). Mais les propriétés statistiques de ces grandeurs (biais, matrice de covariance, distributions de probabilité conduisant à des intervalles de confiance et à des tests) ne peuvent être établies par la théorie que si les hypothèses ci-dessus sont valides.

Un modèle ajusté fournit les moyens de vérifier ces hypothèses dans une certaine mesure. Mais un modèle ne fournissant que des informations partielles sur le processus ayant engendré les données, chaque nouveau modèle doit être utilisé, entre autres choses, pour produire de nouvelles informations sur ce processus.

_____

Les grandeurs les plus utilisées pour vérifier que les "hypothèses du modèle linéaire standard" sont bien satisfaites sont les résidus. Les résidus sont les élément essentiels de beaucoup de :

    * Diagrammes, qui permettent de détecter visuellement les écarts aux hypothèses standard.

    * "Coefficients", ou "indicateurs", dont les valeurs numériques peuvent permettre de détecter un défaut du modèle.

    * Tests, quand les distributions de ces indicateurs sont connues, au moins approximativement.


Ce Tutoriel est organisé par thèmes, et non par techniques. Ceci explique pourquoi la même technique peut parfois apparaître en plusieurs endroits du Tutoriel, mais à chaque fois dans un contexte différent.

 

 

VALIDATION D'UN MODELE DE RLM :

VERIFICATION DES HYPOTHESES

Avertissement : un cercle vicieux

Linéarité

Diagrammes

Résidus vs valeurs ajustées

Valeurs observées vs valeurs ajustées

Valeurs ajustées vs régresseurs

Diagramme "Residu plus composante"(ou "résidus partiels")

Transformation d'un régresseur

Régression polynomiale

Echelle de Tukey

Transformations de Box-Cox

Indépendance des erreurs

Test des séquences (ou test de Wald-Wolfowitz)

Test de Durbin-Watson

Normalité des erreurs

Tests

Tests de normalité : mise en garde

Test d'asymétrie

Test de Jarque-Bera

Histogramme des résidus

Q-Q plot (droite de Henry)

Supernormalité des résidus

Homoscédasticité

Détection de l'hétéroscédasticité

Diagrammes

Résidus vs régresseurs

Résidus vs valeurs ajustées

Valeurs ajustées vs valeurs observées

Indicateurs

Tests

Goldfeld-Quandt

Breusch-Pagan

Stabilisation de la variance

Stabilisation par transformation de la variable à expliquer

Transformation a priori

Stabilisation par transformation de Box-Cox

La méthode du Maximum de Vraisemblance

La méthode d'Atkinson

 

TUTORIEL

 

______________________________________________________

 

Voir aussi:

Régression Linéaire Simple

Estimation par Moindres Carrés

Compromis biais-variance

Régression Ridge

Moindres Carrés Généralisés

Téléchargez ce Glossaire