Moindres Carrés (Droite des)
En Régression Linéaire Simple,
le modèle est matérialisé par une droite, dite "Droite des Moindres
Carrés". Cette droite est une représentation graphique condensée
de la distribution des points dans le plan (x, y). Elle est utilisée
par la suite pour prédire les valeurs de "y" pour de nouvelles
valeurs de "x" (voir Tutoriel "Simple
Linear Regression").
Le nom même de cette droite rend compte de la façon dont elle est déterminée. Pour toute droite D du plan :
* On mesure la distance verticale entre un point de l'échantillon et la droite D,
* On élève cette distance au carré,
* On fait de même pour tous les points de l'échantillon,
* et on additionne les résultats.
On montre qu'il existe une droite et une seule pour laquelle cette valeur est minimale : c'est la Droite des Moindres Carrés.
L'animation suivante illustre le concept de Droite des Moindres Carrés.
Le nombre de points ne peut être modifié qu'en mode
"Reset". Le Bruit ("Noise") est en unités arbitraires.
Utilisez les curseurs pour déplacer la droite "candidate" jusqu'à obtenir la valeur la plus faible possible dans l'affichage mobile.
Cette valeur est une version modifiée de la somme des carrés des distances des points à la droite :
* Cette somme est d'abord divisée par le nombre de points, de façon à produire la valeur moyenne des carrés des distances des points à la droite.
* Puis on prend la racine carrée de cette quantité, de façon à obtenir non pas le carré d'une distance, mais une distance, ce qui est plus parlant à l'imagination (c'est la même approche qui fait passer de la variance à l'Ecart-Type). C'est cette dernière quantité qui est affichée.
La quantité affichée ressemble donc à une "distance moyenne" des points à la droite, mais ce n'est pas la distance moyenne des points à la droite.
____________________
Pour un même échantillon, essayez plusieurs positions
initiales de la droite. Vous vous convaincrez rapidement que vous arrivez toujours
à la même droite finale : il n'existe qu'une seule droite telle que toute
légère modification de la position de la droite provoque obligatoirement une
remontée de la somme des carrés. Cette propriété est très importante, et est
liée au fait que nous essayons de rendre compte de la distribution des points
par une droite, ou plus généralement, à un modèle linéaire
dans les paramètres..
Dans les situations plus complexes, où l'on cherche
à rendre compte de la distribution des points par des formes plus variées, il
peut arriver qu'il y ait plusieurs courbes différentes telles que toute légère
perturbation d'une de ces courbes provoque une remontée de la somme des carrés.
C'est le cas, par exemple, des Réseaux de Neurones.
Une des hypothèses standard de la Régression
Linéaire Simple (RLS) est que la variance du bruit est constante sur
toute l'étendue de variation de la variable indépendante x (homoscedasticité). Elle est
essentielle pour que la Droite des
Moindres Carrés soit le meilleur prédicteur possible.
Cette hypothèse est loin d'être toujours satisfaite. En fait, on rencontre assez
fréquemment des situations où cette variance dépend de la valeur de x
(hétéroscedasticité), la situation la plus commune étant celle où elle
augmente régulièrement avec la valeur de x.
Dans une telle situation, la droite des Moindres Carrés
(dits "ordinaires") n'est plus le meilleur modèle prédictif linéaire.
Il doit être remplacé par le modèle dit des "Moindres Carrés Pondérés",
dont l'idée générale est de donner moins d'importance, dans la détermination
du modèle, aux points affligés d'une variance élevée. Ceci est obtenu en
modifiant légèrement la notion de résidu, remplacée
par celle de résidu pondéré.
Plus précisément, alors que la Droite
des Moindres Carrés (DMC) minimise la Somme des Carrés des Résidus (SSR) :
SSR =
i
(yi* - yi)²
où yi* = a + b.xi est la prédiction du modèle pour l'observation n°i,
la Droite des Moindres Carrés Pondérés (DMCP)
minimise la quantité :
SSRw =
i
wi.(yi* - yi)²
où wi est le "poids" affecté au résidu n° i, de façon à réduire l'influence des points situés dans des zones de forte variance.
Comment les poids wi sont-ils déterminés ? On montre que le poids affecté à l'observation n°i doit être inversement proportionnel à la variance du bruit en i :
wi = k / var(yi)
où k est un coefficient de proportionnalité.
Bien
sûr, la difficulté des de connaître la valeur de var(yi) pour
chaque observation. On fait souvent l'hypothèse que var(y)
est proportionnelle à x, donc que si xj = 2.xi, alors
var(yj) = 2.var(yi), ce qui se traduit par
:
var(yi) = c.xi
où c est un coefficient de proportionnalité.
Les poids sont alors inversement proportionnels à x :
wi ~ 1 / xi
Vous trouverez ici un exemple réaliste pour lequel cette hypothèse est pleinement justifiée.
La figure suivante illustre le concept de "Droite des Moindres Carrés Pondérés".
L'animation propose :
* Un droite de régression (grise) qui passe par l'origine,
* Un échantillon généré par cette droite avec un bruit proportionnel à x,
* La Droite des Moindres Carrés (ordinaires) en bleu, étiquettée "LS" (Least Squares),
* La Droite des Moindres Carrés Pondérés en rouge, étiquetée "WLS" (Weighted Least Squares).
* La valeur à prédire pour la valeur de x définie par la position actuelle de la glissière. Cette valeur est matérialisée par un trait noir court et épais à gauche de l'axe y.
* Les moyennes des prédictions déjà effectuées par la DMC et par la DMCP (tirets épais bleu et rouge).
Après avoir cliqué sur "Go" apparaissent de chaque côté des moyennes des prédictions deux traits fins matérialisant les écarts-type des deux prédictions. Tous les traits convergent rapidement vers leur positions finales.
1) En mode "Next", observez la DMC et la DMCP près de l'origine, où le niveau de bruit est minimal. Remarquez que la DMCP est mieux ajustée aux points (dans cette région) que la DMC.
2) En mode "Run", observez que les moyennes des prédictions de la DMC et de la DMCP convergent toutes les deux vers la valeur à prédire : la DMC et la DMCP sont toutes les deux des prédicteurs sans biais. Les moyennes de leurs distributions ("espérances") sont toutes les deux égales à la valeur à prédire.
3) Observez que l'ecart-type de la distribution des
prédictions de la DMCP devient toujours légèrement plus petit que celui des
prédictions de la DMC ordinaire. Même si le gain n'est pas spectaculaire, il
est néanmoins sensible. Sa valeur est affichée dans la cadre "Results"
sous "Std. Dev. ratio".
De façon équivalente, observez les valeurs
prédites par la DMC et la DMCP (mode "Next"). Remarquez que la ligne
horizontale rouge (prédiction de la DMCP) est le plus souvent entre la ligne
noire (valeur à prédire) et la ligne bleue (prédiction de la DMC ordinaires).
Ceci montre que la prédiction de la DMCP est le plus souvent meilleure que celle
de la DMC ordinaire.
-----
Lorsque les prédictions de la DMCP et de la DMC sont de part et d'autre de la valeur à prédire, la prédiction de la DMCP est le plus souvent plus proche de cette valeur que la prédiction de la DMC.
De façon équivalente, observez que la DMCP est le
plus souvent située dans l'angle formé par la droite de régression et la DMC,
et qu'elle est donc le plus souvent plus "proche" de la vraie droite
de régression que la DMC. Lorsque les DMC et DMCP sont de part et d'autre de
la droite de régression, la DMCP est le plus souvent plus proche de cette droite
que la DMC.
4) Lancez plusieurs fois l'animation avec différentes
positions de la glissière ("Reset"). Remarquez qu'il existe une position pour
laquelle les prédictions de la DMC et la DMCP ont le même écart-type :
les deux modèles ont des puissances prédictives identiques pour cette position.
A
l'inverse, le rapport entre les écarts-type ne cesse de décroître quand on s'éloigne
de cette position (à droite ou à gauche) : le DMCP prend nettement l'avantage
sur la DMC pour les valeurs extrêmes de x. L'effet est particulièrement
sensible pour les valeurs de x proches de 0, ce qui reflète l'attention
toute particulière que la DMCP porte aux régions à faible niveau de bruit.
5) Pour un nombre de points donné, et une position
de la glissière donnée, lancez plusieurs fois l'application avec des niveaux
de bruit différents. Observez que les écarts-type augmentent tout naturellement
avec le niveau de bruit, mais que la valeur finale de leur rapport reste
le même : l'amélioration apportée par la DMCP ne dépend pas du niveau de bruit,
mais seulement de la répartition de ce bruit (à un facteur d'échelle près) dans le domaine de x.
6) Augmentez le nombre de points (Reset), et observez que l'amélioration apportée par la DMCP augmente. Ceci peut s'interpréter de la façon suivante :
* Augmenter le nombre de points revient à "ajouter des points sur la droite", puis à changer d'unités sur l'axe x de façon à conserver à l'échantillon une étendue constante,
* et nous avons vu que l'amélioration
apportée par la DMCP augmente quand on déplace sur la droite de l'échantillon.
_________________________________
Vous trouverez ici les formules donnant les coefficients de la DMCP (pente et ordonnée à l'origine), ainsi que leurs démonstrations.
_________________________________________________________________________________________