|
Tutoriels |
Régression Linéaire Simple
La plus simple et la plus populaire des techniques de régression.
La Régression Linéaire Simple (RLS) est un modèle particulier de régression dans lequel :
* Il n'y a qu'une seule variable explicative (numérique),
* Le modèle est linéaire dans la variable dans les paramètres.
Comme toutes les techniques prédictives, elle a deux objectifs :
___________________________________
La Régression Linéaire Simple traite de la question suivante :
Ces mesures se traduisent par le diagramme de dispersion suivant
:

Dans un premier temps, la RLS cherche à matérialiser le fait que les points expérimentaux sont approximativement alignés. Elle le fait en identifiant la "meilleure droite" passant au travers du nuage de points. Cette droite, dite "Droite des Moindres Carrés" (DMC) sera caractérisée par une pente b et une ordonnée à l'origine a. Ces grandeurs seront les deux premiers paramètres (ou coefficients) du modèle de la RLS.
Il est ensuite possible de quantifier la plus ou moins bonne adaptation de la DMC aux données grâce au Coefficient de détermination R².
Puis la Régression Linéaire Simple considère que les écarts des points à l'alignement parfait sont dûs à des erreurs de mesure aléatoires sur y (les valeurs de x étant fixes et connues avec certitude) et que, sans ces erreurs, les points seraient exactement alignés sur une droite (inconnue) : la Droite de Régression. Moyennant certaines hypothèses assez peu contraignantes sur les distributions de ces erreurs, la Régression Linéaire Simple calcule certaines propriétés des distributions des paramètres de la DMC (moyenne, variance et covariance), et montre que que la Droite des Moindres Carrrés est une bonne estimation de la Droite de Régression.
Elle procède également à une estimation de l'importance (variance) des erreurs, à partir de des résidus des points par rapport à la Droite des Moindres Carrés. Cette variance estimée sera le troisième et dernier paramètre du modèle.
Une fois la Droite des Moindres carrés construite, ses prédictions et les écarts entre prédictions et observations (les résidus) sont des variables aléatoires dont il convient d'étudier les propriétés probabilistes (espérances, variances, covariances).
Le pas suivant consiste à supposer que les erreurs de mesure ont des distributions normales.
Il est alors possible de calculer les distributions des paramètres, des prédictions et des résidus, et d'attribuer des intervalles de confiance aux valeurs calculées.
Comme pour tout modèle, il est indispensable de se
poser la question de savoir si le modèle construit est significatif. Dans le
cas de la RLS, la question est de savoir s'il est vraisemblable qu'un ensemble de
points expérimentaux présente le degré d'alignement constaté s'il n'y a en fait,
dans la réalité, aucun lien linéaire entre x et y.
La
Régression Linéaire Simple est un cas exceptionnel où, en raison de la simplicité mathématique des
hypothèses, le problème est complètement résolu par des tests classiques.
Toutes les observations ne contribuent pas également à la construction du modèle. Il est important d'identifier les observations ayant une influence très importante sur le modèle, en particulier afin de vérifier que cette importance n'est pas artificiellement causée par des erreurs sur leurs valeurs.
____________________________________
Dans la pratique, la RLS n'est pas considérée comme un "cas particulier", mais la technique de régression univariée par excellence. Il y a plusieurs raisons à cela :
1) La détermination de la "meilleure droite", ou "Droite des Moindres Carrés" est simple, et repose sur des principes assez intuitifs.
2) Les paramètres (ou coefficients) de la régression ont de bonnes propriétés statistiques et peuvent de plus être facilement interprétés en termes "métier".
3) Sous réserve d'hypothèses assez peu restrictives, la RLS s'appuie sur une théorie mathématique complète qui lui permet de résoudre les délicats problèmes de la pertinence et du pouvoir de généralisation, du modèle construit sans avoir recours aux lourdes techniques de validation.
Cela étant, il serait injustifié de ne pas envisager d'autres techniques comme la régression polynomiale, les splines ou les Réseaux de neurones.de régression sur des problèmes difficiles dépassant les capacités de la RLS.
_______________________________________
Le caractère linéaire dans les variables et les paramètres du modèle peut être maintenu lorsque y dépend non pas d'une seule variable x, mais de plusieurs variables {x1, x2 , ..., xn }.
y = a0 + a1x1 + a2x2 + ... + apxp
On parle alors de Régression Linéaire Multiple (RLM).
Beaucoup des résultats de la RLS se généralisent sans
difficulté à la RLM. Mais deux nouveaux problèmes doivent cependant être pris en compte
:
Ces deux problèmes ne sont d'ailleurs pas totalement indépendants l'un de l'autre.
Par leur importance pratique, ils justifient que la RLM reçoive un traitement séparé dans ce Glossaire.
____________________________________________________________
|
Tutoriel 1 |
Le premier Tutoriel est une présentation des points qui seront développés ultérieurement. Il s'agit donc en fait d'une Table des Matières commentée.
VUE D'ENSEMBLE DE LA REGRESSION LINEAIRE SIMPLE
|
La Droite des Moindres Carrés (DMC) Définition Unicité Pourquoi les carrés ? La RLS n'est pas symétrique en x et en y DMC et Première Composante Principale Détermination de la DMC Coefficient de détermination R² Interprétation géométrique Propriétés statistiques des paramètres de la RLS Le Modèle Linéaire Simple (MLS) Distribution des paramètres du Modèle Linéaire Simple Droite de régression Variance des erreurs Prédictions, observations et résidus Variance des prédictions et covariance entre prédictions et observations Variance et covariance des résidus L'hypothèse de normalité Distributions et intervalles de confiance Tests de validité de la RLS Points de levier et points influents |
||
|
TUTORIEL |
||
_____________________________________________________________
|
Tutoriel 2 |
Nous abordons ensuite la question du calcul des
valeurs de la pente et de l'ordonnée à l'origine de la DMC. C'est un problème
de géométrie dans lequel n'entre aucune considération probabiliste.
LES PARAMETRES DE LA DROITE DES MOINDRES CARRES
|
La somme des carrés des résidus Les équations normales La Droite des Moindres Carrés (DMC) La pente L'ordonnée à l'origine L'extremum est un minimum Unicité Variables standardisées La DMC passe par le barycentre La DMC et la pente sont indépendantes des positions des axes Les résidus La somme des résidus est nulle Orthogonalité des résidus et de x Orthogonalité des résidus et des prédictions Cas particulier : pente nulle |
||
|
TUTORIEL |
||
___________________________________________________________
|
Tutoriel 3 |
La DMC étant tracée, il faut maintenant juger de sa plus ou moins bonne adéquation aux données. C'est le rôle du Coefficient de Détermination R².
LE COEFFICIENT DE DETERMINATION
|
Le modèle trivial Le coefficient de détermination R² Variation expliquée et Coefficient de détermination Décomposition de la Somme des Carrés Totale (SCT) Interprétation de la décomposition de la SCT Variation expliquée Variation résiduelle Deuxième définition de R² Coefficient de détermination et Coefficient de corrélation |
||
|
TUTORIEL |
||
_________________________________________________________
|
Tutoriel 4 |
La Régression Linéaire Simple peut recevoir une interprétation géométrique qui permet de retrouver les résultats précédents par de simples considérations de géométrie élémentaire. C'est ce que nous faisons dans le Tutoriel suivant.
INTERPRETATION GEOMETRIQUE DE LA RLS
|
L'espace des variables La RLS comme projection La somme des résidus est nulle Le vecteur des résidus est orthogonal au vecteur des abscisses Le vecteur des résidus est orthogonal au vecteur des valeus ajustées La moyenne des prédictions est égale à la moyenne des mesures La DMC passe par le barycentre des points Décomposition de la Somme des Carrés Totale |
||
|
TUTORIEL |
||
_____________________________________________________________
|
Tutoriel 5 |
Nous considérons ensuite que les défauts d'alignement des points sont dûs à des erreurs de mesure aléatoires. Les paramètres de la DMC deviennent alors des variables aléatoires dont nous étudions les propriétés.
PROPRIETES STATISTIQUES DES PARAMETRES DE LA DMC
|
Introduction des erreurs aléatoires Les paramètres de la DMC sont sans biais Hypothèse de nullité des moyennes des erreurs La pente b est sans biais L'ordonnée à l'origine a est sans biais Variances des paramètres de la DMC Hypothèses supplémentaires sur les erreurs Variance de la pente b Variance de l'ordonnée à l'origine a Covariance de la pente b et de l'ordonnée à l'origine a |
||
|
TUTORIEL |
||
_______________________________________________________
|
Tutoriel 6 |
Nous abordons ensuite la question de l'estimation sans biais de la variance des erreurs de mesure.
ESTIMATION SANS BIAIS DE LA VARIANCE
DES ERREURS DE MESURE
|
Estimation sans biais de la variance s² des erreurs de mesure |
||
|
TUTORIEL |
||
La concision de cette Table des Matières est trompeuse. La question, sans être véritablement difficile, exige un traitement un peu long. Le résultat final, très simple, est d'une grande importance aussi bien théorique que pratique.
Nous établissons ce résultat en n'ayant recours qu'à des équations "ordinaires". En Régression Linéaire Multiple, aborder le même problème par le même méthode conduirait à des calculs pratiquement inextricables. Nous ferons alors appel à l'Algèbre Linéaire, qui nous conduira à un résultat similaire par des calculs courts et élégants.
______________________________________________
|
Tutoriel 7 |
Jusqu'ici, nous nous sommes intéressés aux propriétés
statistiques des paramètres
de la Droite des Moindres Carrés (pente, ordonnée à l'origine, variance des résidus)
considérés comme estimateurs des grandeurs correspondantes de la Droite de Régression.
Nous abordons maintenant la question des propriétés
probabilistes des prédictions,
des observations et des résidus. Ces grandeurs ne font pas référence à la vraie
Droite de Régression, et ne font intervenir que la DMC.
Nous verrons que :
Les liaisons les plus importantes entre ces grandeurs sont calculées et interprétées dans ce Tutoriel.
MESURES, RESIDUS ET PREDICTIONS
|
Résultats préliminaires La pente et les erreurs sont décorrélées La pente et la moyenne des observations sont décorrélées Prédictions Espérance des prédictions Covariance de deux prédictions Variance d'une prédiction Covariance entre prédictions et mesures Résidus Espérance des résidus Covariance des résidus Variance des résidus |
||
|
TUTORIEL |
||
_______________________________________________________
|
Tutoriel 8 |
Jusqu'ici, nous n'avons introduit aucune hypothèse
sur la nature de la distribution des erreurs. Nous formulons maintenant l'hypothèse
naturelle selon laquelle les erreurs sont normales. On peut alors calculer
les distributions des paramètres de la DMC, ainsi que des prédictions, et leur
affecter des intervalles
de confiance. La distribution de la variance estimée des erreurs
peut également être calculée.
DISTRIBUTIONS ET INTERVALLES DE CONFIANCE
SOUS L'HYPOTHESE NORMALE
|
Hypothèses sur la distribution des erreurs de mesures ei Pente Distribution de la pente Intervalles de confiance sur la pente Ordonnée à l'origine Distribution de l'ordonnée à l'origine Intervalles de confiance sur l'ordonnée à l'origine Prédictions Distribution des prédictions Intervalles de confiance sur les prédictions Une prédiction Moyenne de plusieurs prédictions Moyenne des prédictions Distribution de s²* Distribution est Chi-2 (sans démonstration) Variance |
||
|
TUTORIEL |
||
_________________________________________________________
|
Tutoriel 9 |
L'hypothèse de normalité des erreurs de mesure permet
de concevoir deux tests de signification de la Régression LInéaire Simple. Ces deux tests portent
sur l'hypothèse nulle selon laquelle b = 0
(pas de dépendance linéaire de y en x). Ces deux tests sont équivalents.
TESTS DE VALIDITE DE LA RLS
|
Tester la nullité de la pente (b = 0) Le test F sur R² Distribution de la variation expliquée (SCE) Distribution de la variation résiduelle (SCR) (sans démonstration) Indépendance de SCE et SCR (sans démonstration) Le test F Le tableau ANOVA Equivalence des deux tests |
||
|
TUTORIEL |
||
__________________________________________________________
|
Tutoriel 10 |
Chacune des observations apporte sa contribution aux valeurs de la pente, de l'ordonnée à l'origine, de la variance estimée des erreurs et des prédictions de la DMC. Mais les contributions de certaines observations sont nettement plus importantes que la "moyenne".
Nous abordons ici la question de l'identification des
observations ayant des contributions exceptionnellement élevées à certains
aspects du modèle.
Cette section fait largement appel à la notion de levier, ainsi qu'aux diverses standardisations des résidus (en particulier, les résidus dits "studentisés"). Nous croyons utile de passer quelque temps sur ces notions, car il existe parfois dans la littérature et dans les logiciels un certain flou concernant les définitions et propriétés de ces grandeurs.
La plupart de démonstrations des résultats énoncés sont
très techniques et ne sont pas présentées.
POINTS DE LEVIER ET POINTS INFLUENTS
|
Observations qui influent sur les prédictions du modèle La notion de "point de levier" Levier Grands résidus Résidus standardisés Résidus studentisés "internes" Résidus "leave-one-out" Estimation "leave-one-out" de la variance des erreurs Résidus studentisés "externes" DFFITSi Prédictions leave-one-out DFFITSi Outliers doubles Distance de Cook Observations qui influent sur les paramètres du modèle La notion d' "observation influente" DFBETAij Rapport de Covariance |
||
|
TUTORIEL |
||
_______________________________________________________________
|
|
Voir aussi: