|
Tutoriels |
Régression Linéaire Multiple
Si vous n'êtes pas familiarisé avec la Régression Linéaire, nous vous suggérons de lire dans un premier temps l'entrée sur la Régression Linéaire Simple (RLS).
La Régression Linéaire Simple cherchait à "expliquer" les valeurs prises par une variable y par les valeurs prises par une autre variable x, ces deux variables étant supposées avoir entre elles une relation linéaire :
y = ax + b + ε(x)
où ε est un bruit aléatoire qui dépend a priori de x.
y = β0 + β1x1 + β2x2 + ... + βpxp + ε (x)
où :
* p est le nombre de variables explicatives,
* ε(x) est un bruit aléatoire dont nous préciserons plus tard la nature, mais qui dépend a priori du point x de l'espace des données défini par les valeurs des xj.
Les données expérimentales sont constituées de n mesures yi , i = 1, 2, ..., n, pour n jeux de valeurs des variables explicatives :
yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ε(x)i
Dans cette expression :
* Les βi sont des nombres fixes, mais inconnus.
* Les ε(x)i sont des réalisations de ε(x).
La Régression Linéaire Simple cherchait à faire passer une droite "au mieux" (au sens des Moindres Carrés) à travers le nuage de points représentant les données dans le plan (x, y). Il va en être de même pour la Régression Linéaire Multiple, si ce n'est que la représentation visuelle devient maintenant impossible, sauf, "de justesse", lorsqu'il n'y a que deux variables explicatives x1 et x2 : la Régression Linéaire Multiple va alors faire passer "au mieux" un plan à travers le nuage de points représentant les données dans l'espace (x1, x2, y).

Dans l'illustration ci-dessus, la plan des Moindres Carrés est celui qui minimise le somme des carrés des longueurs des segments bleus parallèles à l'axe y. Ces longueurs (signées) s'appellent les résidus du modèle. Le plan des Moindres Carrés est donc celui qui minimise la somme des carrés des résidus.
En dimension supérieure, il faut se contenter de dire que la Régression Linéaire Multiple va déterminer l'hyperplan de dimension p minimisant la somme des carrés des écarts (mesurés parallèlement à l'axe y) entre les points représentant les données et l'hyperplan.
Cet hyperplan aura pour équation :
y* = β*0 + β1*x1 + β2*x2 + ... + βp*xp
où les coefficients βj* s'appellent les paramètres estimés du modèle.
Les n valeurs prises par y* pour les différents jeux de valeurs des {xj} sont appelées les valeurs ajustées du modèle. Ainsi, la ième valeur ajustée yi* est :
y*i = β0* + β1*xi1 + β2*xi2 + ... + βp*xip
Dans l'illustration ci-dessus, les valeurs ajustées sont les hauteurs des points du plan des MC à la verticale des points rouges (données).
Une fois construit sur les données disposibles, le modèle sera probablement utilisé par la suite pour prédire les valeurs prises par y pour des jeux de données {x} ne figurant pas dans les données initiales (modélisation prédictive). Ainsi, la valeur de y prédite pour le nouveau point xn+1 = {xn+1,1, ..., xn+1,p} sera :
y*n+1 = β0* + β1*xn+1,1 + β2*xn+1,2 + ... + βp*xn+1,p
et y*n+1 sera appelé la prédiction du modèle pour xn+1.
Il est courant de trouver dans la littérature le terme
"prévision" au lieu de "prédiction". Nous préférons conserver
cette dernière expression pour rester cohérent avec l'expression "modélisation
prédictive".
Nous verrons que la similitude entre les deux problèmes se traduit par une similitude entre les solutions. Nous trouverons des estimateurs β*i des coefficients βi, nous montrerons que ces estimateurs sont sans biais, et nous calculerons leur matrice de covariance.
En formulant ensuite l'hypothèse de normalité sur ε, nous montrerons que les estimateurs β*j ont des distributions normales, ce qui nous permettra de construire des tests et des intervalles de confiance sur les valeurs de ces estimateurs.
Nous aborderons enfin la question des prédictions du modèle sur des données nouvelles, et calculerons des intervalles de confiance sur ces prédictions.
Autrement dit, le schéma de l'étude de la Régression Linéaire Multiple est calqué sur celui de la Régression Linéaire Simple, avec des résultats similaires.
Alors pourquoi un chapitre séparé sur la Régression Linéaire Multiple ?
Il y a trois raisons essentielles qui plaident en faveur d'un développement séparé de la Régression Linéaire Multiple.
Bien que similaires à ceux de la Régression Linéaire Simple, les calculs et les résultats sont plus complexes en raison de la présence de plusieurs variables explicatives. Les calculs reposant sur des équations "ordinaires" deviennent lourdes à manipuler, et le recours à des équations matricielles devient alors une nécessité pratique.
Le canevas de la Régression Linéaire Simple restant cependant disponible, la Régression Linéaire Multiple devient alors un excellent outil pédagogique pour une introduction en douceur de certains aspects importants de l'Algèbre Linéaire.
Ce deuxième point est plus important pour le praticien : la Régression Linéaire Multiple est probablement le premier exemple qu'il rencontrera du "compromis biais-variance", et dont nous résumons maintenant les aspects principaux.
Un modèle (qu'il soit prédictif ou descriptif) construit sur la base d'un échantillon ne doit pas contenir "trop" de paramètres (ici, les β*j ) sous peine, au-delà d'un certain point, de voir :
* Ses perfomances s'améliorer sur l'échantillon, mais se dégrader sur des données nouvelles en raison d'une variance exagérée des estimations des valeurs prédites.
* Les valeurs de ses paramètres perdre toute signification, là encore en raison de leur grande variance.
Ces questions sont d'une grande importance
pratique, et vont forcer l'analyste à fournir un effort important pour sélectionner,
parmi les {xj} disponibles (souvent très nombreuses), celles
qui seront retenues dans le modèle final. ![]()
Une autre source de variance pour les paramètres et les prédictions d'un modèle de Régression Linéaire Multiple vient d'une possible colinéarité entre variables explicatives.
Même une sélection sévère des variables explicatives ne peut totalement éliminer le phénomène de colinéarité, et la Régression Linéaire Multiple a développé un certain nombre de techniques spécifiques destinées à lutter contre ce problème, comme la Régression Ridge.
Une hypothèse du modèle standard de Régression Linéaire est que les erreurs de mesure ε :
* Ont toutes la même variance (homoscédasticité),
* Et sont décorrélées,
ce qui se traduit par :
Σ = σ²In
où Σ est la matrice de covariance des erreurs, et In est la matrice unité d'ordre n.
Cette hypothèse, très forte, est rarement satisfaite par des données réelles. Il est donc naturel de se demander ce qui peut être sauvegardé de la RLM quand la partie déterministe des données est encore linéaire, mais lorsque la matrice de covariance des erreurs n'est plus proportionnelle à In.
En fait, beaucoup de choses peuvent être sauvegardées comme il est décrit dans l'entrée sur les Moindres Carrés Généralisés.
Dans l'expression "régression linéaire", le terme "linéaire" fait référence non pas au fait que le modèle est linéaire dans les régresseurs, mais au fait que le modèle est une fonction linéaire des paramètres. Ainsi, le modèle :
y = β0 + β1.log(x1) + β2.exp(x2)
qui n'est absolument pas linéaire dans les variables, est linéaire dans les paramètres, et tous les résultats de la RLM lui sont applicables.
L'introduction de fonctions non linéaires des variables dans un modèle de RLM vient du désir d'épouser au mieux la vraie fonction de régression lorsque l'on soupçonne celle-ci de ne pas être un simple hyperplan, mais d'être incurvée. En jouant sur les mots, on peut donc dire que la que la Régression Linéaire (dans les paramètres) peut parfaitement appréhender une fonction de régression non linéaire (dans les variables).
En l'absence d'information précise sur cette fonction de régression, on se contente souvent d'ajouter au modèle "de base" des termes qui sont des monômes dans les régresseurs. Par exemple, on considérera le modèle :
y = β0 + β1x1 + β2x2 + β3 x1x2 + β4 x12 + β5 x22
qui est certainement plus souple que le modèle purement linéaire dans les variables, celui-ci n'étant qu'un cas particulier du modèle général défini par la nullité des trois derniers coefficients.
Un modèle tel que celui décrit ci-dessus s'appelle un modèle polynomial pour des raisons évidentes.
La tentation d'introduire dans le modèle des termes de degrés de plus en plus élevés doit être tempérée par la prise en compte du compromis biais-variance, déjà évoqué dans le contexte de la sélection de variables. De fait, la construction d'un modèle polynomial doit impérativement s'accompagner d'une campagne sévère de sélection de variables, les régresseurs étant ici fortement corrélés par nature même.
_______________________________________________________
|
Tutoriel 1 |
Dans ce premier Tutoriel, nous commençons par établir les notations définitives décrivant le problème, et énonçons l'hypothèse de non colinéarité des données.
Nous donnons ensuite du problème une description géométrique dans l'espace des variables, que nous utiliserons à de multiples reprises dans les Tutoriels suivants. Beaucoup des calculs que nous conduirons seront inspirés par des considérations préliminaires sur cette représentation géométrique.
Nous calculons ensuite les valeurs β*j des paramètres du modèle par la méthode des Moindres Carrés. En raison de l'importance fondamentale du résultat, nous en donnons plusieurs démonstrations, ce qui nous permettra de nous familiariser avec la représentation géométrique de la Régression Linéaire Multiple, ainsi qu'avec des notions importantes d'Algèbre Linéaire.
Cette partie est purement géométrique, et ne contient aucune notion de Statistique.
-----
Ce premier Tutoriel devrait convaincre le lecteur de la très grande efficacité de l'Algèbre Linéaire, qui sera notre outil presque exclusif tout au long de ces Tutoriels. Cependant, nous serons amenés à utiliser de nombreux résultats d'Algèbre Linéaire que nous énoncerons sans justification, renvoyant le lecteur intéressé aux multiples ouvrages spécialisés dans ce domaine.
AJUSTEMENT DU MODELE PAR MOINDRES CARRES
|
La matrice des données Ordonnée à l'origine et notations définitives Matrice des données Hypothèse sur la matrice des données Minimisation de l'erreur quadratique L'espace des variables L'espace des solutions L'espace des résidus Moindres Carrés et projection orthogonale Propriété d'invariance des valeurs ajustées Calcul de l'Estimateur des Moindres Carrés Calcul analytique matriciel Position de l'extremum L'extremum est un minimum Calcul par des méthodes géométriques Par les propriétés des opérateurs de projection Par décomposition d'un vecteur sur deux sous-espaces orthogonaux Par orthogonalité de l'espace des solutions et de l'espace des résidus La "matrice chapeau" Définition de la matrice chapeau Première approche des leviers Propriété d'invariance de la matrice chapeau Projections orthogonales et coordonnées du vecteur des valeurs ajustées
|
||
|
TUTORIEL |
||
_________________________________________________________________________
|
Tutoriel 2 |
Le premier Tutoriel ne traitait que d'un problème de géométrie. Nous introduisons maintenant des éléments de Statistique en considérant que les erreurs de mesures ε(x)i sont en fait des variables aléatoires. Les mesures yi sont donc également aléatoires, et, par voie de conséquence, les paramètres estimés βj* sont également des variables aléatoires.
Après avoir énoncé les hypothèses relatives aux propriétés statistiques des erreurs, nous calculons les propriétés statistiques élémentaires du vecteur des paramètres estimés :
* Sa moyenne,
* Et sa matrice de covariance.
Ces résultats sont établis exclusivement par Algèbre Linéaire et énoncés sous forme matricielle, mais ils permettent de retrouver, si besoin est, tous les résultats sur les paramètres individuels, comme par exemple le coefficient de corrélation entre deux paramètres estimés.
-----
L'estimateur des Moindres Carrés β* est le meilleur parmi les estimateurs linéaires sans biais du vecteur des paramètres β du modèle linéaire. Pour cette raison, la littérature anglo-saxonne le qualifie parfois de "BLUE", acronyme de "Best Linear Unbiased Estimator".
Ce résultat, connu sous le nom de "théorème de Gauss-Markov", est démontré ici.
PROPRIETES STATISTIQUES DES PARAMETRES ESTIMES
|
Les erreurs sont des variables aléatoires Le vecteur des paramètres estimés est aléatoire Centrage des erreurs Homoscédasticité Décorrélation des erreurs Matrice de covariance des erreurs Hypothèse de normalité ? L'estimateur des paramètres est sans biais Matrice de covariance des paramètres estimés Cas général Cas particulier : variables orthogonales |
||
|
TUTORIEL |
||
___________________________________________________________
|
Tutoriel 3 |
Le Tutoriel précédent traitait plus particulièrement des propriétés statistiques du vecteur des paramètres β* du modèle.
Celui-ci aborde la question des propriétés statistiques :
* Des résidus,
* Des valeurs ajustées,
* Et des prédictions
de ce modèle.
Le vecteur des résidus joue un rôle important, et nous détaillons dans un premier temps certaines de ses propriétés géométriques avant de décrire ses propriétés statistiques.
-----
Nous terminons avec la question fondamentale pour le praticien de l'estimation de la variance des erreurs σ² : nous identifierons un estimateur sans biais de cette variance.
A l'aide de ce résultat capital, nous identifierons enfin un estimateur des variances (et donc des écarts-type) des paramètres βj*, grandeurs essentielles pour l'évaluation ultérieure de la crédibilité du modèle.
RESIDUS, VALEURS AJUSTEES ET ERREURS DE PREDICTION.
VARIANCES ESTIMEES DES ERREURS ET DES PARAMETRES.
|
Résidus Définition des résidus Propriétés du vecteur des résidus Projection du vecteur des mesures Propriété d'invariance des résidus Projection du vecteur des erreurs Orthogonalité des résidus et des valeurs ajustées Espérance du vecteur des résidus Matrice de covariance des résidus Valeurs ajustées Espérance des valeurs ajustées Matrice de covariance des valeurs ajustées Covariance des résidus et des valeurs ajustées Propriétés des erreurs de prédictions Moyenne de l'erreur de prédiction Variance de l'erreur de prédiction Première forme Deuxième forme Estimation sans biais de la variance des erreurs Estimation de la variance des paramètres |
||
|
TUTORIEL |
||
_______________________________________________________________
|
Tutoriel 4 |
Le modèle linéaire a été maintenant ajusté par la méthode des Moindres Carrés Ordinaires (MCO), et le modèle final est le meilleur des modèles possibles aus sens des Moindres Carrés. Cependant, "le meilleur possible" ne veut pas nécessairement dire "bon", et il convient donc d'identifier un critère de mesure de la qualité de l'ajustement du modèle aux données.
Le critère d'ajustement le plus répandu est le coefficient de détermination R², décrit dans ce Tutoriel. Le R² existe sous plusieurs formes diversement représentées dans les logiciels, et dont il est important de comprendre les propriétés afin de pouvoir interpréter les résultats d'une Régression Linéaire.
COEFFICIENT DE DETERMINATION
R² NON CENTRE, R² CENTRE, R² AJUSTE
|
Coefficient de détermination R ² non centré Le R ² non centré Interprétation du R ² non centré Faiblesse du R ² non centré Coefficient de détermination R ² centré Modèle avec constante Définition du R ² centré Coefficient de corrélation multiple Interprétation géométrique Modèles sans constante Coefficient de détermination ajusté Le compromis biais-variance Le R² ajusté |
||
|
TUTORIEL |
||
__________________________________________________
|
Tutoriel 5 |
Dans les Tutoriels précédents, nous avons formulé les hypothèses suivantes sur les données :
* Relation linéaire entre les variables explicatives {xj} et la variable à expliquer y,
* Erreurs de mesure εi de moyenne nulle, décorrélées, et de variance uniforme (homoscédasticité),
mais nous n'avons supposé aucune forme particulière des distributions de probabilité des erreurs ε.
Pourtant, la méthode des Moindres Carrés s'est avérée être assez puissante pour produire des résultats importants sur les propriétés statistiques des estimateurs.
Nous allons maintenant conserver les hypothèses précédentes, mais en y ajoutant une hypothèse supplémentaire : les εi sont des v.a. normales (ou "gaussiennes"). Sous forme vectorielle, les hypothèses relatives aux erreurs se résument donc par l'expression :
ε ~ N(0, σ²In)
où In est la matrice unitaire d'ordre n.
Cette hypothèse va ouvrir de nouvelles directions d'étude de la Régression Linéaire Multiple :
________
Dans ce Tutoriel, nous abordons les conséquences de l'hypothèse normale sur les distributions des divers estimateurs déjà rencontrés. Les intervalles de confiance et tests seront abordés dans les Tutoriels suivants.
L'HYPOTHESE NORMALE
|
Estimation des paramètres par Maximum de Vraisemblance La log-vraisemblance Estimation des paramètres Estimation de la variance des erreurs Distributions des estimateurs (variance connue) Distribution des paramètres estimés Distribution de la variance estimée des erreurs Indépendance des paramètres estimés et de la variance estimée des erreurs Distributions des paramètres estimés (variance inconnue) Distribution des erreurs de prédictions Variance des erreurs connue Variance des erreurs inconnue |
||
|
TUTORIEL |
||
______________________________________________________________________
|
Tutoriel 6 |
Sous l'hypothèse normale, nous avons calculé les distributions des paramètres estimés, de la variance estimée et des prédictions. Il est donc très simple de donner les intervalles de confiance sur les valeurs calculées de ces quantités, ce que nous faisons dans ce court Tutoriel.
La notion de Région de Confiance sur plusieurs paramètres considérés simultanément, bien qu'assez intuitive, et difficile sur le plan théorique, et nous ne faisons que l'évoquer dans une note. Cependant, comme certains logiciels donnent à l'utilisateur la possibilité de tracer des ellipses de confiance sur des paires de paramètres, nous en donnons quelques règles simples d'interprétation.
INTERVALLES DE CONFIANCE
|
Intervalles de confiance sur les paramètres estimés Intervalles de confiance Note sur les régions de confiance Intervalles de confiance sur la variance estimée Intervalles de confiance sur les prédictions |
||
|
TUTORIEL |
||
___________________________________________________
|
Un premier modèle de RLM a été construit. C'est la partie la plus facile du travail de l'analyste, puisqu'elle ne nécessite qu'un clic de souris. Maintenant commence la partie longue, difficile et aux résultats incertains : améliorer le modèle jusqu'à ce qu'il apparaisse qu'aucun effort supplémentaire ne permette d'obtenir un meilleur modèle. Alors, et alors seulement le modèle pourra-t-il être remis à son utilisateur final, accompagné des estimations de ses performances et des informations sur les données que la phase d'amélioration aura permis de réunir. Nous divisons, un peu arbitrairement, cette phase d'amélioration en trois parties : * Sélection de variables. * Vérification des hypothèses supportant la théorie de la RLM, et mise en œuvre d'actions correctrices si ces hypothèses ne sont pas vérifiées. * Détection des observations ayant une influence particulièrement importante sur la structure et sur les performances du modèle (cette question est traitée ici).
La distinction entre ces trois parties est effectivement arbitraire car leurs mises en œuvre se chevauchent souvent et elles doivent être appelées de façon répétitive dans un ordre dicté par les résultats des actions précédentes, et ce à chaque fois qu'un nouveau modèle est construit. Rappelons en effet que rien ne peut être connu d'un nouveau modèle par simple considération d'autres modèles construits préalablement. Un modèle doit être ajusté aux données avant de pouvoir en tirer quelque information que ce soit. |
|
Les trois Tutoriels suivants sont consacrés à la question de la sélection de variables. * Le Tutoriel 7 décrit le test fondamental dit "entre modèles emboîtés". Son objectif est de déterminer si l'ajout de variables à un modèle (ou le retrait de variables de ce modèle) provoque un changement significatif des performances du modèle. Le test n'est pas en lui-même une méthode de sélection de variables, mais il est utilisé par plusieurs stratégies efficaces de sélections de variables. * Le Tutoriel 8 décrit divers critères de qualité (R² ajusté, Cp de Mallows, AIC, BIC) utilisables pour comparer les performances de plusieurs modèles. Ces critères peuvent également être utilisés par des processus de sélection de variables. * Le Tutoriel 9 traite des différentes stratégies de sélection de variables. Il expose comment les outils développés dans les deux Tutoriels précédents sont mis en œuvre pour identifier un bon sous-ensemble de régresseurs. |
|
Tutoriel 7 |
Ce Tutoriel aborde la question suivante : "Construisons dans un premier temps un modèle sur un certain ensemble de variables explicatives. Puis retirons certaines variables de cet ensemble, et construisons un deuxième modèle sur cet ensemble réduit de variables (les deux modèles sont alors dits "emboîtés"). Les deux modèles ainsi obtenus sont-ils significativement différents ?"
Répondre à cette question exige de donner un sens à l'expression "significativement différents". Nous le ferons en identifiant une statistique dont la distribution peut être calculée quand les deux modèles sont en fait identiques. Un test pourra alors être déduit de cette distribution.
Ce test entre modèles emboîtés peut être construit comme un test du Rapport de Vraisemblance. Comme souvent avec ce type de test, le calcul de la statistique du test est très lourd, et nous ne le développerons pas. Mais, par chance, cette même statistique peut être obtenue par des raisonnements géométriques plus concis et plus intuitifs que nous exposerons en détail.
L'identification de la distribution de cette statistique reposera sur le Théorème de Cochran.
-----
Nous étudierons enfin deux cas particuliers de modèles emboîtés :
* Une seule variable est retirée. Ce cas peut également être abordé par un test de Student, et nous verrons alors que les deux tests sont en fait équivalents.
* Toutes les variables sont retirées (sauf l'ordonnée à l'origine). Le test (dit "test global de Fisher", ou "test du R²") porte alors sur la signification du modèle lui-même.
TESTS SUR MODELES EMBOÎTES
|
Comparaison de modèles : préliminaires Sélection de variables et compromis biais-variance Trois façons de comparer des modèles Critère de qualité Simulation Test entre modèles emboîtés Test entre modèles emboîtés Modèles emboîtés Les hypothèses du test Le test est un Test du Rapport de Vraisemblance Le nouveau sous-espace de projection Construction de la statistique du test Distribution de la statistique du test Indépendance du numérateur et du dénominateur Distribution du numérateur Distribution du dénominateur Distribution de la statistique La statistique du test comme fonction de R² Le test Test de Student sur une seule variable Le test sur modèles emboîtés Le test de Student Equivalence des deux tests Test global de Fisher sur toutes les variables |
||
|
TUTORIEL |
||
___________________________________________________________
|
Tutoriel 8 |
Un même jeu de données conduit toujours à la construction de plusieurs modèles, qui différeront par :
* Le choix des variables explicatives,
* Et éventuellement la méthode de calcul des paramètres,
et la question se pose naturellement de choisir, parmi ces modèles, le "meilleur".
Ce Tutoriel est consacré à la description des différentes techniques de choix entre modèles construits sur un même jeu de données. Nous verrons que les techniques de comparaison sont nombreuses, et malheureusement difficiles à comparer entre elles.
COMPARER DES MODELES DE RLM
|
Trois définitions de la "qualité" d'un modèle La voie royale : données abondantes Situation réaliste : peu de données Validation croisée Test entre modèles emboîtés R² ajusté Le R² augmente en ajoutant des variables Le R² ajusté Cp de Mallows Théorie Interprétation et utilisation Vraisemblance pénalisée Principe général AIC (Akaike) BIC (Schwarz) Comparaison des critères |
||
|
TUTORIEL |
||
___________________________________________________
|
Tutoriel 9 |
Nous nous référons à nouveau au compromis biais-variance pour affirmer que, pour un niveau de performance donné sur l'ensemble des données ayant participé à la construction du modèle, un petit modèle (peu de variables) est préférable à un gros modèle.
L'analyste fait souvent face à un très grand nombre de variables explicatives potentielles, et choisir celles qui seront incorporées dans le modèle final est une question centrale lors de toute création de modèle.
Dans ce Tutoriel, nous montrons comment les tests et critères de qualité décrits dans les Tutoriels précédents peuvent être utilisés pour selectioner un sous-ensemble réduit, mais efficace de variables explicatives.
-----
Un autre rôle de la sélection de variables est de réduire l'effet d'éventuelles colinéarités entre variables indépendantes, en éliminant des variables fortement corrélées avec d'autres variables. Mais la sélection de variables peut ne pas suffire à éliminer le problème. On doit alors recourir à des techniques spécifiquement conçues pour contourner la colinéarité, comme par exemple la Régression Ridge.
SELECTION DE VARIABLES EN REGRESSION LINEAIRE MULTIPLE
|
La sélection de variables comme problème d'optimisation Utilisation des critères de qualité Utilisation des tests sur modèles emboîtés Recherche exhaustive Recherche gloutonne Une idée naïve Algorithmes gloutons Sélection ascendante (Forward ) Avec le test entre modèles emboîtés Avec un critère de qualité Sélection descendante (Backward ) Avec le test entre modèles emboîtés Avec un critère de qualité Sélection progressive (Stepwise) Avertissements Ensemble sous-optimal Différentes procédures Différents points de départ Stabilité de la sélection Interprétabilité Jugement du praticien |
||
|
TUTORIEL |
||
_______________________________________________________
|
Tutoriel 10 |
La validité d'un modèle de RLM, y compris les tests sur les paramètres et les diverses procédures de sélection de variables, repose sur un ensemble d'hypothèses très strictes :
1) Le processus qui a engendré les données et effectivement linéaire.
2) La matrice des données X est de rang plein.
3) Les erreurs sont non corrélées et ont des variances identiques (homoscédasticité).
4) Les erreurs ont des distributions normales.
Un logiciel produira toujours des estimations des paramètres ainsi que des valeurs ajustées (pour autant que la matrice des données soit de rang plein). Mais les propriétés statistiques de ces grandeurs (biais, matrice de covariance, distributions de probabilité conduisant à des intervalles de confiance et à des tests) ne peuvent être établies par la théorie que si les hypothèses ci-dessus sont valides.
Un modèle ajusté fournit les moyens de vérifier ces hypothèses dans une certaine mesure. Mais un modèle ne fournissant que des informations partielles sur le processus ayant engendré les données, chaque nouveau modèle doit être utilisé, entre autres choses, pour produire de nouvelles informations sur ce processus.
_____
Les grandeurs les plus utilisées pour vérifier que les "hypothèses du modèle linéaire standard" sont bien satisfaites sont les résidus. Les résidus sont les élément essentiels de beaucoup de :
* Diagrammes, qui permettent de détecter visuellement les écarts aux hypothèses standard.
* "Coefficients", ou "indicateurs", dont les valeurs numériques peuvent permettre de détecter un défaut du modèle.
* Tests, quand les distributions de ces indicateurs sont connues, au moins approximativement.
Ce Tutoriel est organisé par thèmes, et non par techniques.
Ceci explique pourquoi la même technique peut parfois apparaître en plusieurs
endroits du Tutoriel, mais à chaque fois dans un contexte différent.
VALIDATION D'UN MODELE DE RLM :
VERIFICATION DES HYPOTHESES
|
Avertissement : un cercle vicieux Linéarité Diagrammes Résidus vs valeurs ajustées Valeurs observées vs valeurs ajustées Valeurs ajustées vs régresseurs Diagramme "Residu plus composante"(ou "résidus partiels") Transformation d'un régresseur Régression polynomiale Echelle de Tukey Transformations de Box-Cox Indépendance des erreurs Test des séquences (ou test de Wald-Wolfowitz) Test de Durbin-Watson Normalité des erreurs Tests Tests de normalité : mise en garde Test d'asymétrie Test de Jarque-Bera Histogramme des résidus Q-Q plot (droite de Henry) Supernormalité des résidus Homoscédasticité Détection de l'hétéroscédasticité Diagrammes Résidus vs régresseurs Résidus vs valeurs ajustées Valeurs ajustées vs valeurs observées Indicateurs Tests Goldfeld-Quandt Breusch-Pagan Stabilisation de la variance Stabilisation par transformation de la variable à expliquer Transformation a priori Stabilisation par transformation de Box-Cox La méthode du Maximum de Vraisemblance La méthode d'Atkinson
|
||
|
TUTORIEL |
||
______________________________________________________
Voir aussi:
|