Moindres Carrés (Droite des)

En Régression Linéaire Simple, le modèle est matérialisé par une droite, dite "Droite des Moindres Carrés". Cette droite est une représentation graphique condensée de la distribution des points dans le plan (x, y). Elle est utilisée par la suite pour prédire les valeurs de "y" pour de nouvelles valeurs de "x" (voir Tutoriel "Simple Linear Regression").
 

Le nom même de cette droite rend compte de la façon dont elle est déterminée. Pour toute droite D du plan :

    * On mesure la distance verticale entre un point de l'échantillon et la droite D,

    * On élève cette distance au carré,

    * On fait de même pour tous les points de l'échantillon,

    * et on additionne les résultats.

 

On montre qu'il existe une droite et une seule pour laquelle cette valeur est minimale : c'est la Droite des Moindres Carrés.

 

L'animation suivante illustre le concept de Droite des Moindres Carrés.

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

 

Le nombre de points ne peut être modifié qu'en mode "Reset". Le Bruit ("Noise") est en unités arbitraires.
 

Utilisez les curseurs pour déplacer la droite "candidate" jusqu'à obtenir la valeur la plus faible possible dans l'affichage mobile.

Cette valeur est une version modifiée de la somme des carrés des distances des points à la droite :

    * Cette somme est d'abord divisée par le nombre de points, de façon à produire la valeur moyenne des carrés des distances des points à la droite.

    * Puis on prend la racine carrée de cette quantité, de façon à obtenir non pas le carré d'une distance, mais une distance, ce qui est plus parlant à l'imagination (c'est la même approche qui fait passer de la variance à l'Ecart-Type). C'est cette dernière quantité qui est affichée.

 

La quantité affichée ressemble donc à une "distance moyenne" des points à la droite, mais ce n'est pas la distance moyenne des points à la droite.

____________________


Pour un même échantillon, essayez plusieurs positions initiales de la droite. Vous vous convaincrez rapidement que vous arrivez toujours à la même droite finale : il n'existe qu'une seule droite telle que toute légère modification de la position de la droite provoque obligatoirement une remontée de la somme des carrés. Cette propriété est très importante, et est liée au fait que nous essayons de rendre compte de la distribution des points par une droite, ou plus généralement, à un modèle linéaire dans les paramètres..
Dans les situations plus complexes, où l'on cherche à rendre compte de la distribution des points par des formes plus variées, il peut arriver qu'il y ait plusieurs courbes différentes telles que toute légère perturbation d'une de ces courbes provoque une remontée de la somme des carrés. C'est le cas, par exemple, des Réseaux de Neurones.

 

Moindres Carrés Pondérés

Une des hypothèses standard de la Régression Linéaire Simple (RLS) est que la variance du bruit est constante sur toute l'étendue de variation de la variable indépendante x (homoscedasticité). Elle est essentielle pour que la Droite des Moindres Carrés soit le meilleur prédicteur possible.
Cette hypothèse est loin d'être toujours satisfaite. En fait, on rencontre assez fréquemment des situations où cette variance dépend de la valeur de x (hétéroscedasticité), la situation la plus commune étant celle où elle augmente régulièrement avec la valeur de x.

Dans une telle situation, la droite des Moindres Carrés (dits "ordinaires") n'est plus le meilleur modèle prédictif linéaire. Il doit être remplacé par le modèle dit des "Moindres Carrés Pondérés", dont l'idée générale est de donner moins d'importance, dans la détermination du modèle, aux points affligés d'une variance élevée. Ceci est obtenu en modifiant légèrement la notion de résidu, remplacée par celle de résidu pondéré.

Plus précisément, alors que la Droite des Moindres Carrés (DMC) minimise la Somme des Carrés des Résidus (SSR) :

SSR = i (yi* - yi

yi* = a + b.xi est la prédiction du modèle pour l'observation n°i,


la Droite des Moindres Carrés Pondérés (DMCP) minimise la quantité :

SSRw = i wi.(yi* - yi

wi est le "poids" affecté au résidu n° i, de façon à réduire l'influence des points situés dans des zones de forte variance.

 

Comment les poids wi sont-ils déterminés ? On montre que le poids affecté à l'observation n°i doit être inversement proportionnel à la variance du bruit en i :

wi = k / var(yi)

k est un coefficient de proportionnalité.

Bien sûr, la difficulté des de connaître la valeur de var(yi) pour chaque observation. On fait souvent l'hypothèse que var(y) est proportionnelle à x, donc que si xj = 2.xi, alors var(yj) = 2.var(yi), ce qui se traduit par :

var(yi) = c.xi

c est un coefficient de proportionnalité. Les poids sont alors inversement proportionnels à x :

wi ~ 1 / xi 

Vous trouverez ici un exemple réaliste pour lequel cette hypothèse est pleinement justifiée.

La figure suivante illustre le concept de "Droite des Moindres Carrés Pondérés".

 

 

 

Le "Livre des Animations" sur votre ordinateur

 


L'animation propose :

    * Un droite de régression (grise) qui passe par l'origine,

    * Un échantillon généré par cette droite avec un bruit proportionnel à x,

    * La Droite des Moindres Carrés (ordinaires) en bleu, étiquettée "LS" (Least Squares),

    * La Droite des Moindres Carrés Pondérés en rouge, étiquetée "WLS" (Weighted Least Squares).

    * La valeur  à prédire pour la valeur de x définie par la position actuelle de la glissière. Cette valeur est matérialisée par un trait noir court et épais à gauche de l'axe y.

    * Les moyennes des prédictions déjà effectuées par la DMC et par la DMCP (tirets épais bleu et rouge).

 

Après avoir cliqué sur "Go" apparaissent de chaque côté des moyennes des prédictions deux traits fins matérialisant les écarts-type des deux prédictions. Tous les traits convergent rapidement vers leur positions finales.

 

1) En mode "Next", observez la DMC et la DMCP près de l'origine, où le niveau de bruit est minimal. Remarquez que la DMCP est mieux ajustée aux points (dans cette région) que la DMC.

 

2) En mode "Run", observez que les moyennes des prédictions de la DMC et de la DMCP convergent toutes les deux vers la valeur à prédire : la DMC et la DMCP sont toutes les deux des prédicteurs sans biais. Les moyennes de leurs distributions ("espérances") sont toutes les deux égales à la valeur à prédire.

 

3) Observez que l'ecart-type de la distribution des prédictions de la DMCP devient toujours légèrement plus petit que celui des prédictions de la DMC ordinaire. Même si le gain n'est pas spectaculaire, il est néanmoins sensible. Sa valeur est affichée dans la cadre "Results" sous "Std. Dev. ratio".
De façon équivalente, observez les valeurs prédites par la DMC et la DMCP (mode "Next"). Remarquez que la ligne horizontale rouge (prédiction de la DMCP) est le plus souvent entre la ligne noire (valeur à prédire) et la ligne bleue (prédiction de la DMC ordinaires). Ceci montre que la prédiction de la DMCP est le plus souvent meilleure que celle de la DMC ordinaire.

-----

Lorsque les prédictions de la DMCP et de la DMC sont de part et d'autre de la valeur à prédire, la prédiction de la DMCP est le plus souvent plus proche de cette valeur que la prédiction de la DMC.

De façon équivalente, observez que la DMCP est le plus souvent située dans l'angle formé par la droite de régression et la DMC, et qu'elle est donc le plus souvent plus "proche" de la vraie droite de régression que la DMC. Lorsque les DMC et DMCP sont de part et d'autre de la droite de régression, la DMCP est le plus souvent plus proche de cette droite que la DMC.
 

4) Lancez plusieurs fois l'animation avec différentes positions de la glissière ("Reset"). Remarquez qu'il existe une position pour laquelle les prédictions de la DMC et la DMCP ont le même écart-type : les deux modèles ont des puissances prédictives identiques pour cette position.
A l'inverse, le rapport entre les écarts-type ne cesse de décroître quand on s'éloigne de cette position (à droite ou à gauche) : le DMCP prend nettement l'avantage sur la DMC pour les valeurs extrêmes de x. L'effet est particulièrement sensible pour les valeurs de x proches de 0, ce qui reflète l'attention toute particulière que la DMCP porte aux régions à faible niveau de bruit.
 

5) Pour un nombre de points donné, et une position de la glissière donnée, lancez plusieurs fois l'application avec des niveaux de bruit différents. Observez que les écarts-type augmentent tout naturellement avec le niveau de bruit, mais que la valeur finale de leur rapport reste le même : l'amélioration apportée par la DMCP ne dépend pas du niveau de bruit, mais seulement de la répartition de ce bruit (à un facteur d'échelle près) dans le domaine de x.
 

6) Augmentez le nombre de points (Reset), et observez que l'amélioration apportée par la DMCP augmente. Ceci peut s'interpréter de la façon suivante :

    * Augmenter le nombre de points revient à "ajouter des points sur la droite", puis à changer d'unités sur l'axe x de façon à conserver à l'échantillon une étendue constante,

    * et nous avons vu que l'amélioration apportée par la DMCP augmente quand on déplace sur la droite de l'échantillon.

_________________________________

 

Vous trouverez ici les formules donnant les coefficients de la DMCP (pente et ordonnée à l'origine), ainsi que leurs démonstrations.

_________________________________________________________________________________________

 

Téléchargez ce Glossaire