Estimation  (ponctuelle)

L'Estimation forme, avec les Tests, la partie dite "inférentielle" de la Statistique.

-----

Les distributions de probabilité ne sont en général connues que par le biais des échantillons qu'elles génèrent, et l'estimation est l'art d'extraire d'un échantillon de l'information utile sur la distribution de probabilité qui l'a engendré.

 

Le terme "Estimation" recouvre plusieurs réalités différentes mais étroitement reliées entre elles, et que nous passons ici brièvement en revue.

Qu'est-ce qui est estimé ?

Estimation d'une distribution

L'objectif ultime (et inaccessible) de la Statistique est de pouvoir identifier sans ambiguïté la distribution derrière un phénomène aléatoire. Mais cette distribution n'est connue que par le biais d'un échantillon fini et aléatoire, et ne peut donc jamais être identifiée avec certitude. Cependant, il est possible de formuler des conjectures sur la nature de la distribution qui a engendré l'échantillon. Cette question est relativement simple pour les distributions de probabilité discrètes, mais est beaucoup plus difficile pour les distributions de probabilité continues.

Proposer une distribution  de probabilité complètement définie comme "distribution candidate pour l'échantillon considéré" est appelé estimation de distribution de probabilité, et plus particulièrement estimation de densité de probabilité dans le cas continu.

Estimation des paramètres d'une distribution

On peut également se fixer un but moins ambitieux en restreignant la question. Ceci peut se faire de deux façons :

    1) On peut renoncer à complètement caractériser la distribution, et se satisfaire de ne caractériser que certains aspects particuliers de cette distribution, comme sa moyenne, sa variance, son mode, ou tout autre quantité définie sur la distribution.

    2) On peut également faire l'hypothèse que la distribution appartient à une famille de distributions décrite par une expression mathématique contenant un ou plusieurs paramètres numériques. Identifier la distribution revient alors à estimer les valeurs numériques de quelques paramètres.

 

On dit que l'on procède à l'estimation des paramètres de la distribution.


La distinction entre "Estimation d'une distribution" et "Estimation des paramètres d'une distribution" est sans fondement si les paramètres figurant dans l'expression mathématique de la famille de distributions sont justement des propriétés interprétables des distributions. C'est par exemple le cas de la distribution normale, dont les paramètres mathématiques µ et σ² s'avèrent être la moyenne et la variance de la distribution.

Estimation des paramètres d'un modèle

Un modèle, qu'il soit prédictif ou descriptif, peut être perçu comme le résultat d'un type particulier d'estimation de distribution de probabilité. Par exemple, la régression suppose que les données ont été engendrées par une distribution de probabilité qui est la somme :

    * D'une partie déterministe (la "vraie" fonction de régression),

    * Et d'une partie aléatoire (le terme d'erreur).

 

L'ajustement d'un modèle de régression consiste alors à estimer :

    * Les valeurs des paramètres de la fonction de régression,

    * Ainsi que les propriétés statistiques du terme d'erreur.

Le résultat (le modèle de régression) peut alors être interprété comme une estimation de la distribution de probabilité qui a engendré les données.

Plus généralement, un modèle contient des paramètres dont les valeurs sont calculées à partir de l'échantillon. Ces paramètres sont donc des variables aléatoires qui ont leurs distributions propres. Identifier ces distributions est une tâche essentielle en Modélisation de Données, car leur analyse permettra de juger de la fiabilité du modèle : un modèle dont les paramètres ont des distributions larges ou fortement biaisées (voir ci-dessous) sont peu fiables.

Prédictions d'un modèle

La construction d'un modèle poursuit deux objectifs :

    1) La découverte d'informations relatives à la distribution de probabilité qui a engendré les données.

    2) Faire des prédictions à partir de données nouvelles. Par exemple, un modèle de régression sera utilisé pour prédire la valeur de la variable dépendante y pour une nouvelle valeur donnée x du régresseur. Même un modèle descriptif fait des prédictions : ainsi, un histogramme prédit la valeur de la densité d'une distribution au point où est apparue une nouvelle observation.

 

Un modèle est une construction faite à partir de données qui sont aléatoires, et il en est donc de même pour ses prédictions. Pour le praticien, il est d'une importance primodiale de pouvoir évaluer la qualité de ses prédictions. A cette fin, une prédiction du modèle est considérée comme une variable aléatoire utilisée comme estimateur de la quantité à prédire, et ses qualités en tant qu'estimateur (distribution, ou pour le moins biais et variance) sont alors calculées. Remarquons que la quantité à prédire peut elle-même être aléatoire : par exemple, un modèle de régression produit une estimation de la valeur de la variable à prédire (y) pour une nouvelle valeur du prédicteur x, mais dans le monde réel, le mécanisme qui a engendré les données produit une valeur aléatoire pour chaque valeur de x. Ce que l'on cherche alors à estimer est la moyenne des valeurs de y.

Estimateurs et estimations

Soit θ un paramètre de la distribution, dont la vraie valeur (inconnue) est θ0.

Un estimateur est une fonction des observations de l'échantillon (une "statistique"), et dont la valeur sera utilisée en lieu et place de la valeur vraie θ0 du paramètre θ. La valeur prise par un estimateur sur un échantillon donné est appelé une estimation (de θ0).

Nous noterons :

Donc :

θ* = θ *(échantillon)

On attend d'une estimation qu'elle ait une valeur proche de la vraie valeur du paramètre. Mais l'échantillon étant aléatoire, l'estimateur θ * est une variable aléatoire dont l'estimation θ* n'est qu'une réalisation. Il ne peut donc jamais être dit avec certitude qu'une estimation est proche de la vraie valeur θ0. Il apparaît ainsi que la Théorie de l'Estimation ne portera pas sur les estimations, mais sur les estimateurs considérés comme variables aléatoires, c'est à dire, sur leurs distributions, ou sur certains aspects de leurs distributions (essentiellement moyenne, variance et propriétés asymptotiques).

 

Nous verrons qu'un paramètre peut avoir plusieurs estimateurs parmi lesquels il faut choisir. Les deux questions centrales de la Théorie de l'Estimation sont donc :

Propriétés d'un "bon" estimateur

Rien dans la structure de l'équation définissant une statistique ne permet de dire a priori qu'elle est un estimateur de quoi que ce soit. On peut dire qu'il n'existe pas de définition d'un estimateur. Mais une statistique particulière peut être utilisée pour estimer un paramètre si elle possède certaines "bonnes" propriétés.

Estimateur convergent (ou "correct")

Une idée centrale de la Statistique est que les grands échantillons donnent (sauf malchance) une image raisonnablement fidèle de la distribution elle-même. En d'autres termes on espère que la distribution empirique des grands échantillons est proche de la distribution réelle. Par exemple, dans le cas d'une distribution continue, ceci veut dire qu'il y aura peu d'observations dans les régions où la densité de probabilité a des valeurs faibles, et beaucoup d'observations dans les régions où la densité prend de fortes valeurs (voir Théorème Fondamental de la Statistique).

On est donc en droit d'attendre d'un "bon" estimateur θ * d'un paramètre θ qu'il produise des estimations θ*  qui soient de plus en plus proches de la vraie valeur θ0 quand on considère des échantillons de plus en plus grands.

Mais, un estimateur étant une v.a., on ne peut espérer que cette convergence des estimations vers θ0 quand la taille n de l'échantillon tend vers l'infini se fasse de façon déterministe. Elle ne peut se faire que de façon probabiliste, et il faudra se satisfaire de la propriété suivante, plus faible :

 

il suffit de considérer des échantillons suffisamment grands pour que la probabilité qu'une estimation θ* s'écarte de la vraie valeur θ0 de moins de ε soit supérieure à P.
En d'autres termes, au-delà d'une certaine taille d'échantillon, au moins P.100 % des estimations seront à moins de ε  de la vraie valeur de θ.   

 

Une statistique ayant cette propriété est appelée un estimateur convergent (ou "correct") du paramètre θ.

La propriété de convergence est le moins qui puisse être exigé d'une statistique pour que celle-ci mérite d'être qualifiée d'estimateur.

 

A de rares exceptions près, la distribution d'un estimateur (ou de tout autre statistique non triviale) devient de plus en plus étroite, et ressemble de plus en plus à une distribution normale quand on considère des échantillons de plus en plus grands. Si nous tenons pour acquis que la variance de l'estimateur tend vers 0 quand la taille de l'échantillon tend vers l'infini, la notion d'estimateur convergent veut alors simplement dire que la moyenne de la distribution de l'estimateur tend vers θ0 quand la taille de l'échantillon tend vers l'infini, comme représenté dans les images supérieure et inférieure de la figure ci-dessous   :


 


 1) En termes techniques, un estimateur convergent est une suite de variables aléatoires indexées par n (la taille de l'échantillon) qui converge en probabilité vers θ0.
2) La  Loi Faible des Grands Nombres est un exemple d'identification d'estimateur convergent.
3) Pour un exemple d'exception à la règle du "rétrécissement de la distribution d'une statistique quand la taille de l'échantillon tend vers l'infini", voir la distribution de Cauchy. Nous montrons que, malgré la symétrie de la distribution, la moyenne empirique n'est pas un estimateur convergent de la médiane de la distribution (laquelle n'a pas de moyenne). La médiane empirique, par contre, est un estimateur convergent de la médiane de la distribution.

Biais

La convergence est une propriété asymptotique : définir la convergence demande de considérer des échantillons de taille arbitrairement grande. Dans la réalité, la taille des échantillons est limitée pour des raisons de délais ou de budget. Il est donc naturel de se demander quelle qualité est attendue d'un estimateur limité à des échantillons de taille donnée n.
On espère alors certainement que la région centrale de la distribution de cet estimateur soit proche de la valeur vraie θ0 du paramètre. Une façon d'exprimer cette idée est de considérer les estimateurs dont la moyenne de la distribution (l'espérance) soit égale à θ0 pour toute valeur de n. Un tel estimateur est dit non biaisé, ou sans biais, et cette propriété se traduit par :

E[θ]n = θ0    pour tout n

Cette définition est quelque peu arbitraire. La moyenne n'a pas de vertu particulière en dehors de sa commodité mathématique. Toute autre mesure de tendence centrale, comme la médiane ou le mode, aurait fourni une définition acceptable de l'absence de biais, si ce n'est que les calculs qui en auraient résulté auraient été inextricables la plupart du temps.

Pour une valeur de n donnée, un estimateur dont l'espérance n'est pas égale à θ0 est dit biaisé. Par exemple :

Ces deux estimateurs sont cependant convergents, car leurs espérances tendent vers les vraies valeurs des paramètres correspondant de la population quand la taille de l'échantillon tend vers l'infini.

 

Comme nous le verrons, l'existence d'un biais ne rend pas nécessairement un estimateur inutilisable, même pour des échantillons de petite taille. 

Efficacité

Un paramètre peut avoir plusieurs estimateurs sans biais. Par exemple, pour une distribution symétrique :

sont des estimateurs sans biais de la distribution de la moyenne (quand celle-ci existe, voir plus haut). Lequel choisir ?

 

Il est clair que l'on choisira celui dont les estimations sont plus proches (dans un sens probabiliste) de θ0 que les estimations produites par l'autre estimateur. Une façon d'arriver à ce résultat est de choisir l'estimateur ayant la plus faible variance.

 

 Cette remarque conduit à la définition de l'efficacité relative de deux estimateurs sans biais θ *1 et θ *2 d'un même paramètre θ . Par définition, l'efficacité relative de θ *2 par rapport à θ *1  (pour une taille d'échantillon donnée n) est le rapport de leurs variances :

Efficacité relative (θ *2 par rapport à θ *1)n = Var(θ *1)n / Var(θ *2)n

 
On peut se demander si, pour un paramètre θ, il existe un estimateur sans biais plus efficace que tout autre estimateur sans biais pour toute taille d'échantillon. La réponse est "En général, non". Mais il est parfois possible d'identifier un estimateur sans biais θE  possédant une propriété un peu plus faible :

 Dans ce cas, θE est effectivement l'estimateur le plus efficace, mais seulement dans un sens asymptotique. Pour toute taille d'échantillon donnée n, il peut exister un estimateur sans biais plus efficace que θE .

Un tel estimateur est qualifié d'asymptotiquement efficace, ou simplement d'efficace.


La question :
   * "Quelle est la plus faible variance possible pour un estimateur sans biais ?"
ou, de façon équivalente :
   * "Existe-t-il une borne inférieure à la variance d'un estimateur sans biais ?"
est importante et difficile.
Elle est abordée dans l'entrée sur l'inégalité de Cramér-Rao.

Erreur quadratique minimale

Le praticien ne porte pas une attention exagérée à l'absence de biais. Pour lui, l'important est que, en moyenne, l'estimation θ* soit proche de la vraie valeur θ0. Il est donc surtout intéressé par des estimateurs tels que l'erreur quadratique moyenne :

E[(θ* - θ0 )]²

soit aussi faible que possible, que θ * soit biaisé ou non. Un tel estimateur est appelé estimateur d'erreur quadratique moyenne minimale.

Etant donnés deux estimateurs :

θ *2 peut s'avérer en pratique être un meilleur estimateur que θ *1  (image inférieure de l'illustration ci-dessous).

 

 

L'identification d'estimateurs d'erreur quadratique moyenne minimale est cependant malaisée, et la plupart des estimateurs communément utilisés sont simplement des estimateurs sans biais.

Construire un estimateur

Comme nous l'avons déjà remarqué, rien ne permet de dire a priori si une statistique donnée peut être raisonnablement utilisée pour estimer la valeur d'un certain paramètre. Seul l'examen de ses propriétés en termes de :

permet de se faire une idée sur son intérêt comme estimateur de ce paramètre.

La question de la découverte, ou de la construction d'une statistique ayant certaines des propriétés désirables de la part d'un estimateur reste donc ouverte. Voici trois méthodes classiques permettant de construire des estimateurs d'un paramètre donné.

Méthode des moments

C'est la méthode la plus intuitive. Si un échantillon de grande taille est effectivement représentatif de la distribution sous-jacente D, alors la distribution empirique D* peut être utilisée comme approximation de cette distribution. Si le paramètre θ est défini comme étant une fonction de D :

θ = f(D)

alors on utilise

θ* = f(D*)

comme estimation de θ. C'est l'attitude "de bon sens" que l'on adopte sans y regarder à deux fois lorsque l'on utilise la moyenne empirique comme estimation de la moyenne de la population.

Cette méthode de simple "plug in" s'appelle la méthode des moments. Dans les premiers temps de la Statistique, elle était la seule disponible, et était utilisée surtout pour estimer les moments d'une distribution, d'où son nom.

 

Il est clair que la méthode des moments construit des estimateurs convergents (bien que cette affirmation requiert une démonstration). Mais ceux-ci sont souvent entachés de biais importants pour les petits échantillons.

Méthode du Maximum de Vraisemblance

Etant donnés un échantillon et une distribution candidate, la Vraisemblance est une mesure de la crédibilité de l'affirmation "Cette distribution est celle qui a donné naissance à cet échantillon.".

Etant donnée une famille de distributions (habituellement décrite par une expression mathématique contenant quelques paramètres numériques), la méthode du Maximum de Vraisemblance (MV) sélectionne la distribution de la famille qui rend maximale la Vraisemblance de l'échantillon. Les valeurs des paramètres ainsi obtenues sont les estimations par Maximum de Vraisemblance des valeurs des paramètres de la distribution.

 

La Méthode du Maximum de Vraisemblance repose sur des bases théoriques plus solides que celles de la Méthode des Moments. En particulier, on montre que, sous des conditions très générales, un estimateur MV est :

 

La méthode du MV est aujourd'hui la principale méthode d'estimation.

Méthode des Moindres Carrés

Le meilleur estimateur de la moyenne d'une variable aléatoire est la moyenne empirique m, qui a également la propriété de rendre minimale la somme :

S = Σi (xi - a

a est un paramètre ajustable. S est minimale pour a = m.

 

La fonction yf(x) est la fonction de régression de y sur x si, pour toute valeur de x,  f(x) est égale à la moyenne de y pour cette valeur de x. La régression peut donc être perçue comme l'estimation simultanée des moyennes d'une infinité de variables aléatoires, une pour chaque valeur de x.


L'Estimation par Moindres Carrés (ou "Méthode des Moindres Carrés") est une extension de la propriété de la moyenne de la population évoquée ci-dessus. Les paramètres d'un modèle de régression yf(x) sont le plus souvent calculés en imposant que soit rendue minimale la somme des carrés des différences entre :

 

L'estimation par Moindres Carrés est la technique utilisée pour le calcul des paramètres du modèle en Régression Linéaire Simple ou Multiple.

 

Pour plus d'information sur l'Estimation par Moindres Carrés, voir ici   .

Estimation par intervalle

Ce que nous avons décrit dans cette page est ce que l'on appelle l'estimation ponctuelle, en raison du fait que l'estimation produit un nombre, l'estimation. La faiblesse de l'estimation ponctuelle vient de ce que l'estimation est fournie sans aucune information sur sa crédibilité.

Il est parfois possible de mesurer cette crédibilité. C'est l'objectif que se fixe une autre forme d'estimation, l'estimation par intervalle.

En deux mots, étant donné un échantillon, l'estimation par intervalle construit un segment (l' "intervalle de confiance") tel qu'il soit possible de calculer la probabilité (le "niveau de confiance") pour que ce segment contienne la valeur vraie θ0 du paramètre estimé. Pour un niveau de confiance donné, plus court est l'intervalle de confiance, meilleure est la précision avec laquelle θ0 a été localisé.

Vous trouverez ici plus d'information sur l'estimation par intervalle.

_____________________________________________________________

 

En résumé, l'Estimation (ponctuelle) a pour objectif d'extraire de l'échantillon une information complète ou partielle sur la distribution qui lui a donné naissance. Cette information est nécessairement de nature probabiliste, et se traduit par une estimation (de la valeur d'un paramètre). Un estimateur est une statistique dont les propriétés en tant que variable aléatoire nous laissent espérer que la valeur qu'elle prend sur l'échantillon (l'estimation) est proche de la valeur vraie du paramètre.

Quelques techniques générales (méthode des moments, maximum de vraisemblance, moindres carrés) sont disponibles pour construire des estimateurs ayant de bonnes propriétés.

Il est souvent possible d'associer à une estimation ponctuelle un intervalle de confiance et un niveau de confiance pour cet intervalle.

 

____________________________________________________________

 

Voir aussi:

Modélisation de Données

Paramètres d'un modèle

Vraisemblance

Estimation par intervalle

Téléchargez ce Glossaire