Estimation (ponctuelle)
L'Estimation forme, avec les Tests, la partie dite "inférentielle" de la Statistique.
-----
Les distributions de probabilité ne sont en général connues que par le biais des échantillons qu'elles génèrent, et l'estimation est l'art d'extraire d'un échantillon de l'information utile sur la distribution de probabilité qui l'a engendré.
Le terme "Estimation" recouvre plusieurs réalités différentes mais étroitement reliées entre elles, et que nous passons ici brièvement en revue.
Le rêve ultime (et inaccessible) de la Statistique est de pouvoir identifier sans ambiguïté la distribution derrière un phénomène aléatoire. Mais cette distribution n'est connue que par le biais d'un échantillon fini et aléatoire, et ne peut donc jamais être identifiée avec certitude. Cependant, il est possible de formuler des conjectures sur la nature de la distribution qui a engendré l'échantillon. Cette question est relativement simple pour les distributions de probabilité discrètes, mais est beaucoup plus difficile pour les distributions de probabilité continues.
Proposer une distribution de probabilité complètement définie comme "distribution candidate pour l'échantillon considéré" est appelé estimation de distribution de probabilité, et plus particulièrement estimation de densité de probabilité dans le cas continu.
On peut également se fixer un but moins ambitieux en restreignant la question. Ceci peut se faire de deux façons :
On dit que l'on procède à l'estimation des paramètres de la distribution.
La distinction entre ces deux types d'estimation est sans
fondement si les paramètres figurant dans l'expression mathématique de
la famille de distributions sont justement des propriétés interprétables des
distributions. C'est par exemple le cas de la distribution normale, dont
les paramètres mathématiques µ et s² s'avèrent
être la moyenne et la variance de la distribution.
Un modèle, qu'il soit prédictif ou descriptif, peut être perçu comme une représentation particulière d'une distribution de probabilité. Un modèle paramétrique contient des paramètres dont les valeurs sont calculées à partir de l'échantillon. Ces paramètres sont donc des variables aléatoires qui ont leurs distributions propres. Identifier ces distributions est une tâche essentielle en Modélisation de Données, car leur analyse permettra de juger de la fiabilité du modèle : un modèle dont les paramètres ont des distributions larges sont peu fiables.
Nous passons maintenant brièvement en revue certains
aspects de l'estimation de paramètres.
Soit q un paramètre de la distribution, dont la vraie valeur (inconnue) est q0.
Un estimateur est une fonction des observations de l'échantillon (une "statistique"), et dont la valeur sera utilisée en lieu et place de la valeur vraie q0 du paramètre q. La valeur prise par un estimateur sur un échantillon donné est appelé une estimation (de q0).
Nous noterons :
Donc :
q* = q *(échantillon)
On attend d'une estimation qu'elle ait une valeur proche de la vraie valeur du paramètre. Mais l'échantillon étant aléatoire, l'estimateur q * est une variable aléatoire, dont l'estimation q* n'est qu'une réalisation. Il ne peut donc jamais être dit avec certitude qu'une estimation est proche de la vraie valeur q0. Il apparaît ainsi que la Théorie de l'Estimation ne portera pas sur les estimations, mais sur les estimateurs considérés comme variables aléatoires, c'est à dire, sur leurs distributions, ou sur certains aspects de leurs distributions (essentiellement moyenne et variance).
Nous verrons qu'un paramètre peut avoir plusieurs estimateurs parmi lesquels il faut choisir. Les deux questions centrales de la Théorie de l'Estimation sont donc :
Rien
dans la structure de l'équation définissant une statistique ne permet de dire
a priori qu'elle est un estimateur de quoi que ce soit. On peut dire
qu'il n'existe pas de définition d'un estimateur. Mais une statistique particulière
peut être utilisée pour estimer un paramètre si elle possède certaines
"bonnes"
propriétés.
Une idée centrale de la Statistique est que les grands échantillons donnent (sauf malchance) une image raisonnablement fidèle de la distribution elle-même. En d'autres termes on espère que la distribution empirique des grands échantillons est proche de la distribution réelle. Par exemple, dans le cas d'une distribution continue, ceci veut dire qu'il y aura peu d'observations dans les régions où la densité de probabilité a des valeurs faibles, et beaucoup d'observations dans les régions où la densité prend de fortes valeurs.
On est donc en droit d'attendre d'un "bon" estimateur q * d'un paramètre q qu'il produise des estimations q* qui soient de plus en plus proches de la vraie valeur q0 quand on considère des échantillons de plus en plus grands.
Mais, un estimateur étant une v.a., on ne peut espérer que cette convergence des estimations vers q0 quand la taille n de l'échantillon tend vers l'infini se fasse de façon déterministe. Elle ne peut se faire que de façon probabiliste, et il faudra se satisfaire de la propriété suivante, plus faible :
il suffit de considérer des échantillons suffisamment
grands pour que la probabilité qu'une estimation q* s'écarte
de la vraie valeurq0 de moins de
e soit supérieure à P.
En d'autres
termes, au-delà d'une certaine taille d'échantillon, au moins P.100 % des
estimations seront à moins de e de la
vraie valeur de q.
Une statistique ayant cette propriété est appelée un estimateur convergent (ou "correct") du paramètre q.
La propriété de convergence est le moins qui puisse être exigé d'une statistique pour que celle-ci mérite d'être qualifiée d'estimateur.
A de rares exceptions près, la distribution d'un estimateur (ou de tout autre statistique non triviale) devient de plus en plus étroite, et ressemble de plus en plus à une distribution normale quand on considère des échantillons de plus en plus grands. Si nous tenons pour acquis que la variance de l'estimateur tend vers 0 quand la taille de l'échantillon tend vers l'infini, la notion d'estimateur convergent veut alors simplement dire que la moyenne de la distribution de l'estimateur tend vers q0 quand la taille de l'échantillon tend vers l'infini, comme représenté dans les images supérieure et inférieure de la figure ci-dessous :
1) En termes techniques, un estimateur convergent
est une suite de variables aléatoires indexées par n (la taille de l'échantillon)
qui converge en probabilité vers q0.
2) La Loi Faible des Grands Nombres est un exemple d'identification d'estimateur convergent.
3) Pour un exemple d'exception à la règle du "rétrécissement
de la distribution d'une statistique quand la taille de l'échantillon tend vers
l'infini", voir la distribution de Cauchy.
Nous montrons que, malgré la symétrie de la distribution, la moyenne empirique
n'est pas un estimateur convergent de la médiane de la distribution (laquelle
n'a pas de moyenne). La médiane empirique, par contre, est un estimateur convergent
de la médiane de la distribution.
La
convergence est une propriété asymptotique : définir la convergence demande
de considérer des échantillons de taille arbitrairement grande. Dans la réalité,
la taille des échantillons est limitée pour des raisons de délais ou de budget.
Il est donc naturel de se demander quelle qualité est attendue d'un estimateur
limité à des échantillons de taille donnée n.
On espère alors certainement
que la région centrale de la distribution de cet estimateur soit proche de la
valeur vraie q0 du paramètre.
Une façon d'exprimer cette idée est de considérer les estimateurs dont la moyenne
de la distribution (l'espérance) soit égale à q0 pour
toute valeur de n. Un tel estimateur est dit non biaisé, ou sans
biais, et cette propriété
se traduit par :
E[q]n = q0 pour tout n
Cette définition est quelque peu arbitraire. La moyenne n'a pas de vertu particulière en dehors de sa commodité mathématique. Toute autre mesure de tendence centrale, comme la médiane ou le mode, aurait fourni une définition acceptable de l'absence de biais, si ce n'est que les calculs qui en auraient résulté auraient été inextricables la plupart du temps.
Pour une valeur de n donnée, un estimateur dont l'espérance n'est pas égale à q0 est dit biaisé. Par exemple :
Ces deux estimateurs sont cependant convergents, car leurs espérances tendent vers les vraies valeurs des paramètres correspondant de la population quand la taille de l'échantillon tend vers l'infini.
Comme nous le verrons, l'existence d'un biais ne rend pas
nécessairement un estimateur inutilisable, même pour des échantillons de petite
taille.
Un paramètre peut avoir plusieurs estimateurs sans biais. Par exemple, pour une distribution symétrique :
et
sont des estimateurs sans biais de la distribution de la moyenne (quand celle-ci existe, voir plus haut). Lequel choisir ?
Il est clair que l'on choisira celui dont les estimations sont plus proches (dans un sens probabiliste) de q0 que les estimations produites par l'autre estimateur. Une façon d'arriver à ce résultat est de choisir l'estimateur ayant la plus faible variance.
Cette remarque conduit à la définition de l'efficacité relative de deux estimateurs sans biais q *1 et q *2 d'un même paramètre q . Par définition, l'efficacité relative de q *2 par rapport à q *1 (pour une taille d'échantillon donnée n) est le rapport de leurs variances :
Efficacité relative (q *2 par rapport à q *1)n = Var(q *1)n / Var(q *2)n
On peut se demander si, pour un paramètre
q, il existe un estimateur sans biais plus
efficace que tout autre estimateur sans biais pour toute taille
d'échantillon. La réponse est "En général, non". Mais il est parfois
possible d'identifier un estimateur sans biais qE possédant
une propriété un peu plus faible :
Dans ce cas, qE est effectivement l'estimateur le plus efficace, mais seulement dans un sens asymptotique. Pour toute taille d'échantillon donnée n, il peut exister un estimateur sans biais plus efficace que qE .
Un tel estimateur est qualifié d'asymptotiquement efficace, ou simplement d'efficace.
La question :
* "Quelle est la
plus faible variance possible pour un estimateur sans biais ?"
ou, de
façon équivalente :
* "Existe-t-il une borne inférieure
à la variance d'un estimateur sans biais ?"
est importante et difficile.
Si
ce Glossaire vit suffisamment longtemps, elle sera traitée comme elle le mérite.
Le praticien ne porte pas une attention exagérée à l'absence de biais. Pour lui, l'important est que, en moyenne, l'estimation q* soit proche de la vraie valeur q0. Il est donc surtout intéressé par des estimateurs tels que l'erreur quadratique moyenne :
E[(q* - q 0)]²
soit aussi faible que possible, que q * soit biaisé ou non. Un tel estimateur est appelé estimateur d'erreur quadratique moyenne minimale.
Etant donnés deux estimateurs :
q *2 peut s'avérer en pratique être un meilleur estimateur que q *1 (image inférieure de l'illustration ci-dessous).
L'identification d'estimateurs d'erreur quadratique
moyenne minimale est cependant malaisée, et la plupart des estimateurs communément
utilisés sont simplement des estimateurs sans biais.
Comme nous l'avons déjà remarqué, rien ne permet de dire a priori si une statistique donnée peut être raisonnablement utilisée pour estimer la valeur d'un certain paramètre. Seul l'examen de ses propriétés en termes de :
permet de se faire une idée sur son intérêt comme estimateur de ce paramètre.
La question de la découverte, ou de la construction
d'une statistique ayant certaines des propriétés désirables de la part d'un
estimateur reste donc ouverte. Voici trois méthodes classiques permettant
de construire des estimateurs d'un paramètre donné.
C'est la méthode la plus intuitive. Si un échantillon de grande taille est effectivement représentatif de la distribution sous-jacente D, alors la distribution empirique D* peut être utilisée comme approximation de cette distribution. Si le paramètre q est défini comme étant une fonction de D :
q = f(D)
alors on utilise:
q*= f(D*)
comme estimation de q. C'est l'attitude "de bon sens" que l'on adopte sans y regarder à deux fois lorsque l'on utilise la moyenne empirique comme estimation de la moyenne de la population.
Cette méthode de simple "plug in" s'appelle la méthode des moments". Dans les premiers temps de la Statistique, elle était la seule disponible, et était utilisée surtout pour estimer les moments d'une distribution, d'où son nom.
Il est clair que la méthode des moments construit
des estimateurs convergents (bien que cette affirmation requiert une démonstration).
Mais ceux-ci sont souvent entachés de biais importants pour les petits échantillons.
Etant donnés un échantillon et une distribution candidate, la Vraisemblance est une mesure de la crédibilité de l'affirmation "Cette distribution est celle qui a donné naissance à cet échantillon.".
Etant donnée une famille de distributions (habituellement décrite par une expression mathématique contenant quelques paramètres numériques), la méthode du Maximum de Vraisemblance (MV) sélectionne la distribution de la famille qui rend maximale la Vraisemblance de l'échantillon. Les valeurs des paramètres ainsi obtenues sont les estimations par Maximum de Vraisemblance des valeurs des paramètres de la distribution.
La Méthode du Maximum de Vraisemblance repose sur des bases théoriques plus solides que celles de la Méthode des Moments. En particulier, on montre que, sous des conditions très générales, un estimateur MV est :
La méthode du MV est aujourd'hui la principale méthode
d'estimation.
Le meilleur estimateur de la moyenne d'une variable aléatoire est la moyenne empirique m, qui a également la propriété de rendre minimale la somme :
S = Si (xi - a)²
où a est un paramètre ajustable. S est minimale pour a = m.
La fonction y = f(x) est la fonction de régression de y sur x si, pour toute valeur de x, f(x) est égale à la moyenne de y pour cette valeur de x. La régression peut donc être perçue comme l'estimation simultanée des moyennes d'une infinité de variables aléatoires, une pour chaque valeur de x.
L'Estimation par Moindres Carrés (ou "Méthode des Moindres Carrés") est une extension de la propriété de la moyenne de la population évoquée ci-dessus. Les paramètres d'un modèle de régression y = f(x) sont le plus souvent calculés en imposant que soit rendue minimale la somme des carrés des différences entre :
L'estimation par Moindres Carrés est la technique utilisée pour le calcul des paramètres du modèle en Régression Linéaire Simple ou Multiple.
Pour plus d'information sur l'Estimation par Moindres
Carrés, voir ici
.
Ce que nous avons décrit dans cette page est ce que l'on appelle l'estimation ponctuelle, en raison du fait que l'estimation produit un nombre, l'estimation. La faiblesse de l'estimation ponctuelle vient de ce que l'estimation est fournie sans aucune information sur sa crédibilité.
Il est parfois possible de mesurer cette crédibilité. C'est l'objectif que se fixe une autre forme d'estimation, l'estimation par intervalle.
En deux mots, étant donné un échantillon, l'estimation par intervalle construit un segment (l' "intervalle de confiance") tel qu'il soit possible de calculer la probabilité (le "niveau de confiance") pour que ce segment contienne la valeur vraie q0 du paramètre estimé. Pour un niveau de confiance donné, plus court est l'intervalle de confiance, meilleure est la précision avec laquelle q0 a été localisé.
Vous trouverez ici plus d'information sur l'estimation par intervalle.
_____________________________________________________________
En résumé, l'Estimation (ponctuelle) a pour objectif d'extraire de l'échantillon une information complète ou partielle sur la distribution qui lui a donné naissance. Cette information est nécessairement de nature probabiliste, et se traduit par une estimation (de la valeur d'un paramètre). Un estimateur est une statistique dont les propriétés en tant que variable aléatoire nous laissent espérer que la valeur qu'elle prend sur l'échantillon (l'estimation) est proche de la valeur vraie du paramètre.
Quelques techniques générales (méthode des moments, maximum de vraisemblance, moindres carrés) sont disponibles pour construire des estimateurs ayant de bonnes propriétés.
Il est souvent possible d'associer à une estimation ponctuelle un intervalle de confiance et un niveau de confiance pour cet intervalle.
____________________________________________________________
Voir aussi: