Biais
D'une façon générale, le terme "biais" désigne un écart systématique (non aléatoire) entre une grandeur et la prédiction de cette grandeur.
Un estimateur θ* d'un paramètre θ est dit "sans biais", ou "non biaisé", si son espérance est égale à la valeur du paramètre :
E[θ*] = θ
Autrement dit, la valeur d'un estimateur sans biais est "en moyenne" égale à la valeur à estimer.
Si l'espérance de l'estimateur n'est pas égale à la valeur du paramètre, l'estimateur est dit "biaisé", et son biais est, par définition, la différence entre l'espérance de l'estimateur et la vraie valeur du paramètre :
Biais = E[θ*] - θ
La valeur du biais dépend, en général, de la valeur du paramètre θ.
L'absence de biais est évidemment une qualité séduisante pour un estimateur, mais elle n'est pas fondamentale. La qualité d'un estimateur, pour une taille d'échantillon donnée, se mesure plutôt par la valeur moyenne du carré de son écart à la valeur à estimer, appelée Erreur Quadratique Moyenne (EQM) :
EQM = E[(θ* - θ)²]
On montre que :
EQM = Var(θ*) + Biais(θ*)²
L'EQM d'un estimateur sans biais est donc simplement sa variance.
-----
L'expression ci-dessus suggère que l'absence de biais (Biais(θ*)² = 0) est nécessaire à l'obtention d'une faible EQM, mais les choses sont en fait plus complexes : il est parfois possible d'introduire un certain biais dans un estimateur originellement non biaisé et de découvrir que, ce faisant, la variance de l'estimateur a tellement diminué que l'EQM a elle-même diminué. Un certain niveau de biais (soigneusement ajusté) est alors une caractéristique favorable de l'estimateur.
Le réglage de l'équilibre entre biais et variance dans le but de minimiser l'EQM s'appelle le "compromis biais-variance".
* Un exemple relatif à l'estimation de la variance d'une distribution normale est décrit ici.
* Un autre exemple est décrit dans l'animation ci-dessous.
* La Régression Ridge est l'exemple le plus connu d'introduction volontaire d'un biais dans un modèle naturellement sans biais afin de réduire l'EQM des estimations de ses paramètres et de ses prédictions.
Il est parfois possible de corriger le biais d'un estimateur biaisé (sans que ce soit nécessairement une bonne idée). L'exemple le plus classique est celui de l'estimation d'une variance :
* L'estimateur issu de la méthode des moments :
s² =
1/n.Σi
(xi -
)²
avec
= 1/n.Σi
i
est biaisé :
* Mais l'estimateur "corrigé" :
S ² =
1/(n - 1).Σi
(xi -
)²
est, lui, sans biais (image inférieure de l'illustration ci-dessus).
L'absence de biais facilite grandement l'étude des propriétés d'un estimateur en raison du fait que le biais d'un estimateur convergent mais biaisé peut dépendre de façon complexe de la valeur du paramètre. Les estimateurs sans biais ont donc été étudiés en profondeur.
Le résultat le plus significatif est qu'il est fréquent qu'une fonction g(θ) d'un paramètre θ admette un unique estimateur sans biais meilleur que tous les autres estimateurs sans biais de g(θ), et ceci pour toutes les valeurs de θ dans son domaine. Quand un tel estimateur existe, on l'appelle l'Estimateur Sans Biais de Variance Minimale (ESBVM) de g(θ).
De plus, il existe des méthodes puissantes d'identification d'un ESBVM lorsqu'il en exite un.
Il est courant et naturel de porter une attention exclusive aux estimateurs sans biais, ne serait-ce qu'en raison de leur appel direct à l'intuition et à la commodité des calculs mathématiques auxquels ils donnent lieu.
Cependant, les estimateurs sans biais ne sont pas une panacée :
* D'abord, l'absence de biais n'apporte rien au praticien. Ce que ce dernier recherche est un estimateur dont les estimations sont le plus souvent proches de la valeur à estimer, et donc un estimateur à faible EQM, et pas nécessairement un estimateur sans biais.
* De nombreuses quantités n'ont pas d'estimateur sans biais.
* Certains estimateurs sans biais peuvent parfois avoir des comportements pathologiques.
Ces points sont développés dans le Tutoriel ci-dessous.
Cette animation illustre le concept d'estimation sans biais ainsi que ses limitations.
|
Cette animation étudie trois estimateurs du paramètre θ de la distribution uniforme U[0, θ]. Cadre supérieur Ce cadre affiche le segment [0, 1] ainsi qu'un échantillon tiré de la distribution U[0, θ]. Chaque clic sur le bouton "Next" provoque le tirage d'un nouvel échantillon. Cadres à fond gris Ces trois cadres vont afficher les histogrammes empiriques des distributions des trois estimateurs de θ. A l'ouverture de l'animation, seules sont affichées les distributions théoriques de ces estimateurs. Double de la moyenne empirique La moyenne empirique Sa distribution n'a pas de forme mathématique simple, et n'est pas affichée. Seule la moyenne et l'écart-type de cette distribution sont affichées en bas du cadre. L'estimation courante est affichée sous la forme d'une ligne verticale descendant du haut du cadre. ESBVM ("UMVUE") L'ESBVM T2 de θ est connu et est calculé ici. Nous calculerons sa variance et montrerons que celle-ci est inférieure à celle de T1. De plus, nous montrerons que lorsque la taille de l'échantillon augmente (boutons "Sample size"), son avantage sur T1 devient écrasant : T1 est donc un très mauvais estimateur sans biais de θ. La distribution théorique de T2 est affichée dans le cadre du milieu. EQM minimale Nous montrerons que l'introduction d'un certain biais dans T2 permet d'obtenir un nouvel estimateur T3 dont la variance est inférieure à celle de T2, et dont l'EQM est inférieure à celle deT2 (c.à.d. sa variance). L'intitulé du cadre "Lowest MSE" est trompeur : T3 n'est que l'estimateur ayant la plus faible EQM des trois estimateurs étudiés. Il n'est pas affirmé que T3 est l'estimateur ayant la plus faible EQM de tous les estimateurs de θ (à supposer qu'il existe un tel estimateur, ce que l'auteur ne sait pas). Animation Cliquez sur "Go" et observez la construction progressive des histogrammes empiriques des distributions des trois estimateurs. Observez que T1 et T2 sont sans biais, alors que T3 est clairement biaisé. Observez que la variance de T2 est inférieure à celle de T1. EQM La partie droite de l'animation affiche les EQM des trois estimateurs sous forme graphique. * T1 est clairement le plus mauvais des trois, et ce d'autant plus que l'échantillon est grand. * T3 est meilleur que T2 pour toute taille d'échantillon, la différence étant plus prononcée pour les petits échantillons. Cette différence n'est jamais considérable, mais le but de cette partie de l'animation n'est que de montrer qu'un ESBVM n'est pas obligatoirement le meilleur estimateur calculable.
|
En chaque point de l'espace des variables, un modèle est amené à faire une prédiction (p.ex. valeur de la variable à expliquer dans le cas des modèles prédictifs). Le modèle ajusté dépendant de l'échantillon, cette prédiction est une variable aléatoire, qui est utilisée comme estimateur de la grandeur dont on cherche à prédire la valeur.
Cet estimateur peut être :
* Sans biais (voir par exemple la Régression Linéaire Simple sous les conditions standard).
* Mais peut également être biaisé (voir Régression Ridge, ainsi que la première partie de l'animation sur le compromis biais-variance).
On peut également considérer la moyenne du biais sur l'espace des variables explicatives, pondérée par la densité de probabilité conjointe de ces variables. Cette quantité permet de juger globalement du biais du modèle, c'est à dire de sa capacité à épouser la forme de la partie déterministe du processus ayant généré les données (image inférieure de l'illustration ci-dessous).
Le lecteur consultera utilement la seconde partie de l'animation sur le compromis biais-variance.
____________________________________________________
|
Tutoriel |
Dans ce Tutoriel, nous examinons quelques inconvénients occasionnés par une trop grande importance attachée à l'absence de biais des estimateurs.
* Nous décrivons dans un premier temps quelques cas où il n'existe aucun estimateur sans biais de la fonction du paramètre considérée.
* Nous retrouvons ensuite une vieille connaissance : l'ESBVM de e-aλ du paramètre λ de la distribution Poisson(λ) (dont l'expression a déjà été établie ici et ici). Nous verrons que pour de petits échantillons, le comportement de cet estimateur est irrégulier mais redevient régulier lorsque la taille de l'échantillon dépasse un certain seuil.
Nous profiterons de l'occasion pour établir l'expression de cet ESBVM par une troisième méthode (Corollaire du théorème de Lehmann-Scheffé).
* Nous identifierons un estimateur biaisé de la variance de la distribution de Bernoulli dont l'EQM est pourtant inférieure à celle de son ESBVM, lequel a été calculé ici.
* Finalement, nous étudierons en détail le cas de l'estimation du paramètre θ de la distribution U[0, θ] (voir animation ci-dessus). Nous verrons que l'estimateur sans biais le plus naturel (le double de la moyenne empirique) est en fait un très mauvais estimateur. Nous identifierons également un estimateur biaisé de θ dont l'EQM est inférieure à celle de son ESBVM.
LIMITATIONS DE L'ABSENCE DE BIAIS
|
Il n'existe pas toujours d'estimateur sans biais Distribution binomiale Inverse 1/p du paramètre "Log-odds" log[p/(1 - p)] Inverse du paramètre de la distribution de Poisson Un estimateur sans biais peut avoir des comportements irréguliers ESBVM de exp(-aλ) de la distribution Poisson(λ) Petits échantillons Grands échantillons Un estimateur biaisé peut être meilleur qu'un ESBVM Variance de la distribution de Bernoulli Distribution uniforme U[0, θ ] Double de la moyenne empirique Espérance Variance Variance de l'ESBVM de θ Un estimateur de plus faible EQM Espérance et biais Variance EQM |
||
|
TUTORIEL |
||
____________________________________________________
Voir aussi:
|