Moindres carrés  (Estimation par)

Les deux techniques les plus importantes d'estimation des paramètres d'un modèle sont :

  1. La maximisation de la vraisemblance de l'échantillon,
  2. La minimisation de la somme des carrés des erreurs commises par le modèle sur l'ensemble des données qui ont servi à le construire ("ensemble d'apprentissage").

 

Nous abordons ici la seconde approche, connue sous le terme général de "Estimation par Moindres Carrés". Le terme "estimation" fait référence au fait que les valeurs des paramètres du modèle ainsi calculées seront (sous réserve de certaines hypothèses) de bonnes estimations des paramètres du mécanisme ayant engendré les données (pour plus d'informations sur l'estimation, voir ici).

 

Examples d'estimation par Moindres Carrés

Estimation d'une moyenne

            Soit f(x) une dp ayant une moyenne µ, et soit {x1, x2 , ..., xn}un échantillon de n observations tirées de cette dp. Alors, la moyenne empirique :   

m = 1/n . Si xi

est un estimateur sans biais de la moyenne µ de la population.

La moyenne empirique a également la propriété de rendre minimale la somme :

S = Si (xi - y

y est un paramètre ajustable. En d'autres termes, S est minimale pour y = m (la valeur de S étant alors n fois la variance de l'échantillon).

Ainsi, au lieu de définir notre estimateur comme "La moyenne empirique", nous aurions aussi bien pu le définir comme "La grandeur y qui rend S minimale".

 

Cette remarque est le point de départ de l' Estimation par Moindres Carrés, un paradigme très général utilisé pour calculer les valeurs des paramètres de modèles destinée à estimer simultanément les moyennes de plusieurs v.a. liées par une relation particulière (voir ci-dessous).

Régression Linéaire Simple

            Un ensemble d'observations appariées {xi, y i} est visualisé sur le diagramme ci-dessous :

 

 

 

D'un point de vue purement géométrique (et non probabiliste), il est naturel de considérer que la ligne droite qui minimise la somme des carrés des résidus est une bonne visualisation du fait que les points sont approximativement alignés.

 

Dans l'étape suivante, on suppose que :

 

Ces deux conditions décrivent beaucoup de situations réelles. Par exemple, la pression du gaz dans un réservoir (les yi) peut être mesurée pour diverses températures (les xi). En raison des erreurs de mesure, chaque y i doit être considérée comme aléatoire. Plus précisément, nous supposerons que chaque yi est la somme :

Les températures sont considérées comme presque parfaitement reproductibles d'une série de mesures à une autre, et donc non aléatoires.

 

Les y i étant aléatoires, on s'attend à ce que, pour la série de mesures disponible, certains y i soient plus grands que la moyenne correspondante mi, alors que d'autres seront plus petits que la moyenne. On peut également imaginer que :

 

Cette intuition permet de poser raisonnablement la question de savoir si la droite peut être utilisée pour estimer les mi, les vraies valeurs de y (c.à.d. sans erreur de mesure) selon le principe décrit dans la figure suivante :
 



La réponse est "Oui, sous certaines conditions". En particulier, ces conditions exigent que tous les points moyens (xi, mi) soient alignés. Plus précisément, sous ces conditions (que nous appelerons par la suite le Modèle Linéaire Standard, ou MLS), chaque mi* est une estimation non biaisée de la moyenne vraie mi. De plus, cette propriété s'étend à toute nouvelle valeur xn+1 de x. La valeur m* n+1 calculée par le modèle est une estimation non biaisée de la valeur vraie mi+1 de la moyenne de y pour x =  xn+1.

 

Il apparaît donc que la Régression Linéaire Simple est une généralisation de notre premier problème (l'estimation de la moyenne d'une population). Ici :


On notera que chaque yi est en soi une estimation non biaisée du mi correspondant. Mais la coopération des Y i dans un modèle unique rend les
estimations yi*  plus précises. Ce point est repris dans les Tutoriels sur les Régression Linéaire Simple et Multiple.

Linear Régression Linéaire Multiple

         Le modèle de la Régression Linéaire Simple est :

y = a0 + a1x + e

Il se généralise au cas où les mesures y dépendent non pas d'une seule variable x, mais de p variables xi , i = 1, 2, ..., p. On a alors le modèle de Régression Linéaire Multiple :

y = a0 + a1x1 + a2x2 + ... +  apxp + e 

 

Les résidus sont définis comme en Régression Linéaire Simple. Le modèle est ajusté aux données de façon à minimiser la somme des carrés des résidus, et sa représentation géométrique est maintenant un hyperplan à p dimensions dans un espace à p+1 dimensions. Les prédictions du modèle sont encore des estimations non biaisées des valeurs vraies des moyennes de y pour tout jeu de valeur des prédicteurs.

 

Les paramètres estimés s'expriment par des formes mathématiques simples (linéaires) des données, et leurs propriétés statistiques sont bien comprises si les données vérifient le MLS. En particulier, ces paramètres sont sans biais (voir ici) et leur variance est minimale dans la famille des estimateurs linéaires sans biais des paramètres (voir Théorème de Gauss-Markov).

Moindres Carrés en classification

            Certains techniques de classification codent les classes non pas par les modalités d'une variable nominale, mais par des nombres (appelés cibles) selon divers schémas. Un modèle (souvent linéaire) est alors contruit pour prédire ces cibles de façon aussi exacte que possible. La méthode courante d'ajustement des paramètres est alors d'imposer que la somme des carrés des erreurs de prédiction des cibles sur l'ensemble d'apprentissage soit aussi faible que possible.

Moindres Carrés Linéaires

Que signifie le terme "Linéaire" ?

            Dans les exemples précédents, les modèles considérés étaient  linéaires dans les variables et, de fait, le terme "linéaire" est souvent perçu comme voulant dire "linéaire dans les variables".

Mais en fait, "linéaire" signifie "linéaire dans les paramètres du modèle", et non dans les variables. Ainsi, un polynôme en x :

y = a0 + a1x + a2x2 + ... +  apxp 

est considéré comme un modèle linéaire car il est linéaire dans les paramètres a0, a1, ..., ap.

Le mécanisme des Moindres Carrés

            Les Moindres Carrés sont particulièrement bien adaptés aux modèles linéaires car :

 

D'autres grandeurs sont également simplement calculables, en particulier :

 

Des interprétations géométriques instructives de ces quantités peuvent également être données.

 

Tous ces résultats ne requièrent que des hypothèses simples sur le mécanisme ayant généré les données, et ne font pas appel à la nature de la distribution du bruit e.

Mais si, de plus, on fait l'hypothèse (le plus souvent raisonnable) que les erreurs de mesure e ont des distributions normales, alors les distributions des quantités ci-dessus sont connues explicitement (et en particulier, celles des paramètres du modèle). Ceci a pour conséquence très importante qu'il devient alors possible de construire des tests et des estimations par intervalle sur les paramètres. En particulier, il devient possible de tester des hypothèses nulles comme :

H0 : ai = 0

qui exprime le fait que la variable xi n'a pas d'influence sur la variable à prédire, et peut donc (et en fait, doit) être retirée du modèle. Cette type de test est important en Régression Linéaire Multiple.

Generalisations

Moindres Carrés non linéaires

            Dans la discussion précédente, le lien entre la variable à expliquer y et les paramètres était supposée linéaire. Les prédictions du modèle construit par la méthode des Moindres Carrés étaient des estimations sans biais des moyennes de y pour tout jeu de valeurs des prédicteurs {x}. Le modèle est alors un authentique modèle de régression.

 

Beaucoup de problèmes de régression sont, par nature même, non linéaires dans les paramètres. Par exemple :

f(t) = A.e-a t + B.e-b t 

f(t) = A.cosw1t + B.cosw2 t

sont non linéaires dans leurs paramètres..


Il est parfois possible de transformer une fonction non linéaire en une fonction linéaire par une transformation appropriée. Il est alors possible d'utiliser les Moindres Carrés Linéaires pour estimer les coefficients des fonctions. Mais en général, les données transformées ne vérifieront pas les hypothèses du Modèle Linéaire Standard avec pour conséquences un biais sur les estimations des paramètres et des prédictions, et l'impossibilité de construire des tests sur les paramètres.

Le principe de minimisation des carrés des résidus peut encore être utilisé pour calculer les valeurs des paramètres du modèle. Mais les dérivées partielles de S (la somme des carrés des résidus) par rapport aux paramètres produisent alors un système d'équations non linéaires que l'on ne sait pas résoudre analytiquement. Minimiser S devient alors un problème d'optimisation qui ne peut être résolu que par des procédures numériques itératives. De plus, les estimations des moyennes mi sont en général biaisées.

 

La situation est la même quand la forme analytique sous-jacente aux données est inconnue, voire non existante. On a alors recours à des modèles ad hoc, non linéaires dans les paramètres, comme les Réseaux de Neurones. L' "apprentissage" d'un Réseau de Neurones n'est autre que la mise en œuvre d'une technique d'optimisation en vue de minimiser la somme des carrés des résidus du modèle.

Moindres Carrés pondérés

            Le Modèle Linéaire Standard peut être étendu à des situations où :

 

________________________________________

 

Voir aussi :

Estimation

Vraisemblance

Régression Linéaire Simple

Régression Linéaire Multiple

Téléchargez ce Glossaire