Animation interactive

Moindres Carrés Généralisés (MCG)

Rappelons que la Régression Linéaire (Simple ou Multiple) suppose que les observations y ont été générées par un processus décrit par l'équation

y = Xβ + ε

où :

    * X est la matrice des variables explicatives,

    * β est le vecteur des paramètres de la fonction de régression,

    * ε est le vecteur des "erreurs" aléatoires.

 

Les hypothèses standard de la Régression Linéaire supposent que les erreurs sont :

    * De variances identiques (homoscédasticité),

    * Et décorrélées.

En d'autres termes, elles supposent que la matrice de covariance des erreurs est proportionnelle à la matrice identité I d'ordre n (où n est le nombre d'observations) :

V(ε) = σ²I

et où σ² est la variance (commune) des erreurs.

-----

Cette hypothèse est très forte et peut ne pas être vérifiée en pratique. Conserver dans ce cas la méthode d'estimation des Moindres Carrés (qualifiés alors d'"Ordinaires") peut conduire à des erreurs graves :

    * Les paramètres estimés ne sont plus de variance minimale.

    * La méthode classique d'estimation de la variance des erreurs sous l'hypothèse d'homoscédasticité n'a plus de sens si la variance des erreurs n'est pas constante.

    * Les intervalles de confiance et les tests portant sur les valeurs paramètres et des prédictions ne sont plus justifiés, même en conservant l'hypothèse de normalité de distribution des observations.

    * Le coefficient de détermination R² n'a plus de sens, car la relation classique de décomposition de la variance n'est plus valable.

Il convient donc de se demander s'il est possible de modifier le paradigme standard de la Régression Linéaire d'une façon qui puisse prendre en compte la situation générale où V(ε) serait une matrice définie positive quelconque.

Moindres Carrés Pondérés

Dans un premier temps, on peut souhaiter conserver l'hypothèse de décorrélation des erreurs, mais accepter que la variance des erreurs ne soit pas la même pour toutes les observations.

Rappelons que la méthode des Moindres Carrés Ordinaires (MCO) consiste à minimiser la Somme des Carrés des Résidus (SCR) :

SCR = Σi (yi - yi*

(la somme étant sur les n observations) entre les valeurs observées yi et les valeurs prédites par le modèle yi* (valeurs ajustées).

Nous montrerons que lorsque la variance des observations n'est pas constante, il suffit, pour se ramener au modèle standard de Régression Linéaire, de minimiser la quantité

 

SCRw = Σi [(yi - yi*)²/σ²i]

 

où σ²i est la variance de l'observation n°i.

L'indice "w" évoque le mot anglais "weight" (poids), et de fait, cette méthode de calcul des paramètres du modèle s'appelle la méthode des Moindres Carrés Pondérés (MCP). Elle consiste donc encore à minimiser la somme des carrés des résidus, mais chacun des termes de la somme étant maintenant "pondéré" par l'inverse de la variance correspondante de l'erreur. On voit que les MCP pénalisent les observations à forte variance, qui ont une moindre influence sur le modèle final que les observations à faible variance.

En introduisant les nouvelles variables

    * zi = yi /σi  

    * wi = xi /σi   (où xi est le vecteur des valeurs observées des variables explicatives pour l'observation i)

l'expression précédente s'écrit

SCRw = Σi (zi - wi βw*)²

βw* est le vecteur des paramètres estimés par la méthode des MCP.

On voit donc que la méthode des MCP est équivalente à la méthode des MCO appliquée :

    * Aux valeurs observées originales divisées par leurs écarts-types individuels,

    * Aux valeurs des variables explicatives également divisées par ces mêmes écarts-types.


Si toutes les variances sont égales, on voit que la MCP se réduit à la MCO.

Animation

Cette animation illustre la méthode d'estimation par Moidres Carrés Pondérés.

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

L'animation propose :

    * Un droite de régression (grise) qui passe par l'origine,

    * Un échantillon généré par cette droite avec un bruit proportionnel à x,

    * La Droite des Moindres Carrés (ordinaires) en bleu, étiquettée "LS" (Least Squares),

    * La Droite des Moindres Carrés Pondérés en rouge, étiquetée "WLS" (Weighted Least Squares).

    * La valeur  à prédire pour la valeur de x définie par la position actuelle de la glissière. Cette valeur est matérialisée par un trait noir court et épais à gauche de l'axe y.

    * Les moyennes des prédictions déjà effectuées par la DMC et par la DMCP (tirets épais bleu et rouge).

 

Après avoir cliqué sur "Go" apparaissent de chaque côté des moyennes des prédictions deux traits fins matérialisant les écarts-type des deux prédictions. Tous les traits convergent rapidement vers leur positions finales.

 

1) En mode "Next", observez la DMC et la DMCP près de l'origine, où le niveau de bruit est minimal. Remarquez que la DMCP est mieux ajustée aux points (dans cette région) que la DMC.

 

2) En mode "Run", observez que les moyennes des prédictions de la DMC et de la DMCP convergent toutes les deux vers la valeur à prédire : la DMC et la DMCP sont toutes les deux des prédicteurs sans biais. Les moyennes de leurs distributions ("espérances") sont toutes les deux égales à la valeur à prédire.

 

3) Observez que l'ecart-type de la distribution des prédictions de la DMCP devient toujours légèrement plus petit que celui des prédictions de la DMC ordinaire. Même si le gain n'est pas spectaculaire, il est néanmoins sensible. Sa valeur est affichée dans la cadre "Results" sous "Std. Dev. ratio".
De façon équivalente, observez les valeurs prédites par la DMC et la DMCP (mode "Next"). Remarquez que la ligne horizontale rouge (prédiction de la DMCP) est le plus souvent entre la ligne noire (valeur à prédire) et la ligne bleue (prédiction de la DMC ordinaires). Ceci montre que la prédiction de la DMCP est le plus souvent meilleure que celle de la DMC ordinaire.

-----

Lorsque les prédictions de la DMCP et de la DMC sont de part et d'autre de la valeur à prédire, la prédiction de la DMCP est le plus souvent plus proche de cette valeur que la prédiction de la DMC.

De façon équivalente, observez que la DMCP est le plus souvent située dans l'angle formé par la droite de régression et la DMC, et qu'elle est donc le plus souvent plus "proche" de la vraie droite de régression que la DMC. Lorsque les DMC et DMCP sont de part et d'autre de la droite de régression, la DMCP est le plus souvent plus proche de cette droite que la DMC.
 

4) Lancez plusieurs fois l'animation avec différentes positions de la glissière ("Reset"). Remarquez qu'il existe une position pour laquelle les prédictions de la DMC et la DMCP ont le même écart-type : les deux modèles ont des puissances prédictives identiques pour cette position.
A l'inverse, le rapport entre les écarts-type ne cesse de décroître quand on s'éloigne de cette position (à droite ou à gauche) : le DMCP prend nettement l'avantage sur la DMC pour les valeurs extrêmes de x. L'effet est particulièrement sensible pour les valeurs de x proches de 0, ce qui reflète l'attention toute particulière que la DMCP porte aux régions à faible niveau de bruit.
 

5) Pour un nombre de points donné, et une position de la glissière donnée, lancez plusieurs fois l'application avec des niveaux de bruit différents. Observez que les écarts-type augmentent tout naturellement avec le niveau de bruit, mais que la valeur finale de leur rapport reste le même : l'amélioration apportée par la DMCP ne dépend pas du niveau de bruit, mais seulement de la répartition de ce bruit (à un facteur d'échelle près) dans le domaine de x.
 

6) Augmentez le nombre de points (Reset), et observez que l'amélioration apportée par la DMCP augmente. Ceci peut s'interpréter de la façon suivante :

    * Augmenter le nombre de points revient à "ajouter des points sur la droite", puis à changer d'unités sur l'axe x de façon à conserver à l'échantillon une étendue constante,

    * et nous avons vu que l'amélioration apportée par la DMCP augmente quand on déplace sur la droite de l'échantillon.

 


 

Vous trouverez ici les formules donnant les coefficients de la DMCP (pente et ordonnée à l'origine), ainsi que leurs démonstrations.
Vous trouverez ici un exemple réaliste pour lequel cette hypothèse est pleinement justifiée.

Moindres Carrés Généralisés

Les Moindres Carrés Pondérés écartent l'hypothèse d'homoscédasticité, mais conservent l'hypothèse de décorrélation des erreurs. Si cette hypothèse est à son tour abandonnée, la matrice de covariance des erreurs devient une matrice définie positive V quelconque.

Est-il encore possible de sauvegarder la Régression Linéaire sous des hypothèses aussi faibles sur les données ?

Nous montrerons qu'il est encore possible de se ramener aux hypothèses standard du modèle linéaire en effectuant à nouveau une transformation des variables explicatives et de la variable à expliquer. Cette transformation est plus complexe que celle qui conduit aux MCP, qui n'en est qu'un cas particulier.

Le résultat principal de cette étude est le suivant : la meilleure estimation β*G du vecteur de paramètres β de la vraie fonction de régression est donné par :

 

β*G = (X'V -1X)-1X'V -1y

 

 

La méthode de calcul des paramètres estimés conduisant à ce résultat s'appelle la méthode des Moindres Carrés Généralisés (MCG), dont la méthode des Moindres Carrés Pondérés n'est donc qu'un cas particulier. L'estimateur β*G est parfois appelé "estimateur d'Aitken".


Bien entendu, si V = I, on retrouve l'équation donnant les paramètres β* tels que calculés par la méthode des MCO.

 ______________________________________________________________________

 

 

Tutoriel

 

 Dans ce Tutoriel, nous établissons les résultats fondamentaux de la méthode des Moindres Carrés Généralisés, et en particulier ceux relatifs à l'estimation du vecteur des paramètres du modèle. Ce vecteur sera prouvé être optimal aus sens du théorème de Gauss-Markov.

Ces résultats s'obtiennent facilement en remarquant qu'une transformation de Mahalanobis du vecteur des erreurs permet de ramener le problème général (matrice de covariance des erreurs quelconque) au cas où les hypothèses de la Régression Linéaire Multiple sont vérifiées (homoscédasticité et décorrélation des erreurs).

Nous insisterons ensuite sur le fait que cette transformation peut s'interpréter en termes de changement de la métrique définissant le produit scalaire entre deux vecteurs. Il apparaît ainsi qu'il n'y a pas de différence fondamentale entre Moindres Carrés Ordinaires (MCO) et Moindres Carrés Généralisés, qui sont une seule et même méthode, les MCO n'étant qu'un cas particulier des MCG (matrice de covariance des erreurs égale à la matrice identité).

-----

Les Moindres Carrés Pondérés ne sont pas traités séparément, n'étant qu'un cas particulier des Moindre Carrés Généralisés.

 

 

 

MOINDRES CARRES GENERALISES

Transformation linéaire du modèle

Transformation générale

Retour à l'homoscédasticité et à la décorrélation

Non unicité de la transformation

Moindres Carrés Généralisés

Paramètres du modèle

Le nouveau modèle

Estimation des paramètres

Propriétés statistiques de l'estimateur des MCG

Espérance

Matrice de covariance

Optimalité (Gauss-Markov)

Interprétation géométrique des MCG

Valeurs ajustées, projection oblique

Changement de métrique

Produit scalaire et norme

Résidus

Somme des Carrés Résiduelle 

TUTORIEL

 

______________________________________________________

 

Voir aussi :

Régression Linéaire Multiple

Théorème de Gauss-Markov

Moindres Carrés Ordinaires

Téléchargez ce Glossaire