Tutoriels

Régression Linéaire Simple

La plus simple et la plus populaire des techniques de régression.

 

La Régression Linéaire Simple (RLS) est un modèle particulier de régression dans lequel :

    * Il n'y a qu'une seule variable explicative (numérique),

    * Le modèle est linéaire dans la variable dans les paramètres.

 

Comme toutes les techniques prédictives, elle a deux objectifs :

___________________________________

La Régression Linéaire Simple traite de la question suivante :


Ces mesures se traduisent par le diagramme de dispersion suivant :
 


Droite des Moindres Carrés

Dans un premier temps, la RLS cherche à matérialiser le fait que les points expérimentaux sont approximativement alignés. Elle le fait en identifiant la "meilleure droite" passant au travers du nuage de points. Cette droite, dite "Droite des Moindres Carrés" (DMC) sera caractérisée par une pente b et une ordonnée à l'origine a. Ces grandeurs seront les deux premiers paramètres (ou coefficients) du modèle de la RLS.

Coefficient de détermination R²

Il est ensuite possible de quantifier la plus ou moins bonne adaptation de la DMC aux données grâce au Coefficient de détermination R². 

Propriétés statistiques des paramètres

Puis la Régression Linéaire Simple considère que les écarts des points à l'alignement parfait sont dûs à des erreurs de mesure aléatoires  sur y (les valeurs de x étant fixes et connues avec certitude) et que, sans ces erreurs, les points seraient exactement alignés sur une droite (inconnue) : la Droite de Régression. Moyennant certaines hypothèses assez peu contraignantes sur les distributions de ces erreurs, la Régression Linéaire Simple calcule certaines propriétés des distributions des paramètres de la DMC (moyenne, variance et covariance), et montre que que la Droite des Moindres Carrrés est une bonne estimation de la Droite de Régression.

Estimation de la variance des erreurs

Elle procède également à une estimation de l'importance (variance) des erreurs, à partir de des résidus des points par rapport à la Droite des Moindres Carrés. Cette variance estimée sera le troisième et dernier paramètre du modèle.

Prédictions et résidus

Une fois la Droite des Moindres carrés construite, ses prédictions et les écarts entre prédictions et observations (les résidus) sont des variables aléatoires dont il convient d'étudier les propriétés probabilistes (espérances, variances, covariances).

Hypothèse de la distribution normale des erreurs

Le pas suivant consiste à supposer que les erreurs de mesure ont des distributions normales.

Distributions et intervalles de confiance

Il est alors possible de calculer les distributions des paramètres, des prédictions et des résidus, et d'attribuer des intervalles de confiance aux valeurs calculées.

Validité du modèle

Comme pour tout modèle, il est indispensable de se poser la question de savoir si le modèle construit est significatif. Dans le cas de la RLS, la question est de savoir s'il est vraisemblable qu'un ensemble de points expérimentaux présente le degré d'alignement constaté s'il n'y a en fait, dans la réalité, aucun lien linéaire entre x et y.
La Régression Linéaire Simple est un cas exceptionnel où, en raison de la simplicité mathématique des hypothèses, le problème est complètement résolu par des tests classiques.

Observations remarquables

Toutes les observations ne contribuent pas également à la construction du modèle. Il est important d'identifier les observations ayant une influence très importante sur le modèle, en particulier afin de vérifier que cette importance n'est pas artificiellement causée par des erreurs sur leurs valeurs.

____________________________________

Dans la pratique, la RLS n'est pas considérée comme un "cas particulier", mais la technique de régression univariée par excellence. Il y a plusieurs raisons à cela :

    1) La détermination de la "meilleure droite", ou "Droite des Moindres Carrés" est simple, et repose sur des principes assez intuitifs.

    2) Les paramètres (ou coefficients) de la régression ont de bonnes propriétés statistiques et peuvent de plus être facilement interprétés en termes "métier".

    3) Sous réserve d'hypothèses assez peu restrictives, la RLS s'appuie sur une théorie mathématique complète qui lui permet de résoudre les délicats problèmes de la pertinence et du pouvoir de généralisation, du modèle construit sans avoir recours aux lourdes techniques de validation.

 

Cela étant, il serait injustifié de ne pas envisager d'autres techniques comme la régression polynomiale, les splines ou les Réseaux de neurones.de régression sur des problèmes difficiles dépassant les capacités de la RLS.

_______________________________________

Le caractère linéaire dans les variables et les paramètres du modèle peut être maintenu lorsque y dépend non pas d'une seule variable x, mais de plusieurs variables {x1, x2 , ..., xn }.

y = a0 +  a1x1 +  a2x2  +  ... + apxp 

On parle alors de Régression Linéaire Multiple (RLM).


Beaucoup des résultats de la RLS se généralisent sans difficulté à la RLM. Mais deux nouveaux problèmes doivent cependant être pris en compte :

 

Ces deux problèmes ne sont d'ailleurs pas totalement indépendants l'un de l'autre.

Par leur importance pratique, ils justifient que la RLM reçoive un traitement séparé dans ce Glossaire.

____________________________________________________________

 


Tutoriel 1

 

Le premier Tutoriel est une présentation des points qui seront développés ultérieurement. Il s'agit donc en fait d'une Table des Matières commentée.

 

 

VUE D'ENSEMBLE DE LA REGRESSION LINEAIRE SIMPLE

La Droite des Moindres Carrés (DMC)

Définition

Unicité

Pourquoi les carrés ?

La RLS n'est pas symétrique en x et en y

DMC et Première Composante Principale

Détermination de la DMC

Coefficient de détermination R²

Interprétation géométrique

Propriétés statistiques des paramètres de la RLS

Le Modèle Linéaire Simple (MLS)

Distribution des paramètres du Modèle Linéaire Simple

Droite de régression

Variance des erreurs

Prédictions, observations et résidus

Variance des prédictions et covariance entre prédictions et observations

Variance et covariance des résidus

L'hypothèse de normalité

Distributions et intervalles de confiance

Tests de validité de la RLS

Points de levier et points influents

TUTORIEL

 _____________________________________________________________

 

 

Tutoriel 2

 

Nous abordons ensuite la question du calcul des valeurs de la pente et de l'ordonnée à l'origine de la DMC. C'est un problème de géométrie dans lequel n'entre aucune considération probabiliste.
 

 

LES PARAMETRES DE LA DROITE DES MOINDRES CARRES

La somme des carrés des résidus

Les équations normales

La Droite des Moindres Carrés (DMC)

La pente

L'ordonnée à l'origine

L'extremum est un minimum

Unicité

Variables standardisées

La DMC passe par le barycentre

La DMC et la pente sont indépendantes des positions des axes

Les résidus

La somme des résidus est nulle

Orthogonalité des résidus et de x

Orthogonalité des résidus et des prédictions

Cas particulier : pente nulle

TUTORIEL

 ___________________________________________________________

 

 

Tutoriel 3

 

La DMC étant tracée, il faut maintenant juger de sa plus ou moins bonne adéquation aux données. C'est le rôle du Coefficient de Détermination R².

 

 

LE COEFFICIENT DE DETERMINATION

Le modèle trivial

Le coefficient de détermination R²

Variation expliquée et Coefficient de détermination

Décomposition de la Somme des Carrés Totale (SCT)

Interprétation de la décomposition de la SCT

Variation expliquée

Variation résiduelle

Deuxième définition de R²

Coefficient de détermination et Coefficient de corrélation

TUTORIEL

_________________________________________________________


 

Tutoriel 4

 

La Régression Linéaire Simple peut recevoir une interprétation géométrique qui permet de retrouver les résultats précédents par de simples considérations de géométrie élémentaire. C'est ce que nous faisons dans le Tutoriel suivant.

 

 

INTERPRETATION GEOMETRIQUE DE LA RLS

L'espace des variables

La RLS comme projection

La somme des résidus est nulle

Le vecteur des résidus est orthogonal au vecteur des abscisses

Le vecteur des résidus est orthogonal au vecteur des valeus ajustées

La moyenne des prédictions est égale à la moyenne des mesures

La DMC passe par le barycentre des points

Décomposition de la Somme des Carrés Totale

TUTORIEL

_____________________________________________________________

 

 

Tutoriel 5

 

Nous considérons ensuite que les défauts d'alignement des points sont dûs à des erreurs de mesure aléatoires. Les paramètres de la DMC deviennent alors des variables aléatoires dont nous étudions les propriétés.

 

 

PROPRIETES STATISTIQUES DES PARAMETRES DE LA DMC

Introduction des erreurs aléatoires

Les paramètres de la DMC sont sans biais

Hypothèse de nullité des moyennes des erreurs

La pente b est sans biais

L'ordonnée à l'origine a est sans biais

Variances des paramètres de la DMC

Hypothèses supplémentaires sur les erreurs

Variance de la pente b

Variance de l'ordonnée à l'origine a

Covariance de la pente b et de l'ordonnée à l'origine a 

TUTORIEL

_______________________________________________________

 

 

Tutoriel 6

 

Nous abordons ensuite la question de l'estimation sans biais de la variance des erreurs de mesure.

 

 

ESTIMATION SANS BIAIS DE LA VARIANCE

DES ERREURS DE MESURE

Estimation sans biais de la variance s² des erreurs de mesure

TUTORIEL

 

 

La concision de cette Table des Matières est trompeuse. La question, sans être véritablement difficile, exige un traitement un peu long. Le résultat final, très simple, est d'une grande importance aussi bien théorique que pratique.

Nous établissons ce résultat en n'ayant recours qu'à des équations "ordinaires". En Régression Linéaire Multiple, aborder le même problème par le même méthode conduirait à des calculs pratiquement inextricables. Nous ferons alors appel à l'Algèbre Linéaire, qui nous conduira à un résultat similaire par des calculs courts et élégants.

______________________________________________

 

 

Tutoriel 7

 

Jusqu'ici, nous nous sommes intéressés aux propriétés statistiques des paramètres de la Droite des Moindres Carrés  (pente, ordonnée à l'origine, variance des résidus) considérés comme estimateurs des grandeurs correspondantes de la Droite de Régression.

Nous abordons maintenant la question des propriétés probabilistes des prédictions, des observations et des résidus. Ces grandeurs ne font pas référence à la vraie Droite de Régression, et ne font intervenir que la DMC.

Nous verrons que :

 

Les liaisons les plus importantes entre ces grandeurs sont calculées et interprétées dans ce Tutoriel.

 

 

MESURES, RESIDUS ET PREDICTIONS

Résultats préliminaires

La pente et les erreurs sont décorrélées

La pente et la moyenne des observations sont décorrélées

Prédictions

Espérance des prédictions

Covariance de deux prédictions

Variance d'une prédiction

Covariance entre prédictions et mesures

Résidus

Espérance des résidus

Covariance des résidus

Variance des résidus

TUTORIEL

_______________________________________________________

 

 


Tutoriel 8

 

Jusqu'ici, nous n'avons introduit aucune hypothèse sur la nature de la distribution des erreurs. Nous formulons maintenant l'hypothèse naturelle selon laquelle les erreurs sont normales. On peut alors calculer les distributions des paramètres de la DMC, ainsi que des prédictions, et leur affecter des intervalles de confiance. La distribution de la variance estimée des erreurs peut également être calculée.
 

 

DISTRIBUTIONS ET INTERVALLES DE CONFIANCE

SOUS L'HYPOTHESE NORMALE

Hypothèses sur la distribution des erreurs de mesures ei

Pente

Distribution de la pente

Intervalles de confiance sur la pente
 

Ordonnée à l'origine

Distribution de l'ordonnée à l'origine

Intervalles de confiance sur l'ordonnée à l'origine

Prédictions

Distribution des prédictions

Intervalles de confiance sur les prédictions

Une prédiction

Moyenne de plusieurs prédictions

Moyenne des prédictions

Distribution de s²* 

Distribution est Chi-2 (sans démonstration)

Variance

TUTORIEL

 _________________________________________________________

 

 

Tutoriel 9

 

L'hypothèse de normalité des erreurs de mesure permet de concevoir deux tests de signification de la Régression LInéaire Simple. Ces deux tests portent sur l'hypothèse nulle selon laquelle b = 0 (pas de dépendance linéaire de y en x). Ces deux tests sont équivalents.
 

 

TESTS DE VALIDITE DE LA RLS

Tester la nullité de la pente (b = 0)

Le test F sur R²

Distribution de la variation expliquée (SCE)

Distribution de la variation résiduelle (SCR)    (sans démonstration)

Indépendance de SCE et SCR    (sans démonstration)

Le test F

Le tableau ANOVA

Equivalence des deux tests

TUTORIEL

 __________________________________________________________

 

 

Tutoriel 10

 

Chacune des observations apporte sa contribution aux valeurs de la pente, de l'ordonnée à l'origine, de la variance estimée des erreurs et des prédictions de la DMC. Mais les contributions de certaines observations sont nettement plus importantes que la "moyenne".

Nous abordons ici la question de l'identification des observations ayant des contributions exceptionnellement élevées à certains aspects du modèle.
 

Cette section fait largement appel à la notion de levier, ainsi qu'aux diverses standardisations des résidus (en particulier, les résidus dits "studentisés"). Nous croyons utile de passer quelque temps sur ces notions, car il existe parfois dans la littérature et dans les logiciels un certain flou concernant les définitions et propriétés de ces grandeurs.


La plupart de démonstrations des résultats énoncés sont très techniques et ne sont pas présentées.

 


POINTS DE LEVIER ET POINTS INFLUENTS

Observations qui influent sur les prédictions du modèle

La notion de "point de levier"

Levier

Grands résidus

Résidus standardisés

Résidus studentisés "internes"

Résidus "leave-one-out"

Estimation "leave-one-out" de la variance des erreurs

Résidus studentisés "externes"

DFFITSi

Prédictions leave-one-out

DFFITSi

Outliers doubles

Distance de Cook

Observations qui influent sur les paramètres du modèle

La notion d' "observation influente"

DFBETAij

Rapport de Covariance

TUTORIEL

 

_______________________________________________________________

 

 

Voir aussi:

Régression

Moindres Carrés

Régression Linéaire Multiple

Réseaux de Neurones

 

 

 

Téléchargez ce Glossaire