|
Animation interactive |
Estimateurs (Combinaison d')
Supposons qu'une quantité Q (p. ex. la moyenne m d'une distribution) doive être estimée, et que l'estimation soit conduite par deux équipes indépendantes, chacune utilisant son estimateur favori :
* L'Equipe 1 utilise l'estimateur Q1, qui produit le nombre Q*1, une estimation de Q. L'estimateur Q1 est supposé sans biais.
* L'Equipe 2 utilise l'estimateur Q2, qui produit le nombre Q*2, une autre estimation de Q. L'estimateur Q2 est également supposé sans biais.
Comment combiner ces deux estimations en une seule estimation améliorée Q*c de Q ? Par "améliorée", on entend :
* Que l'espérance de Q*c, considérée comme variable aléatoire, est toujours égale à Q. Autrement dit, on attend que Q*c soit une réalisation d'un nouvel estimateur sans biais que nous appellerons Qc.
* Et que la variance
² de
cet estimateur soit inférieure à la variance
1² de
Q1 et la variance
2² de
Q2. En fait, nous serons plus exigeants, et attendrons de Qc qu'il
ait la variance la plus faible possible.
L'idée la plus simple est de définir Q*c comme étant la moyenne de Q*1 and Q*2.
Q*c = (Q*1 + Q*2)/2
ou de façon équivalente, de définir le nouvel estimateur Qc de la façon suivante :
Qc = 1/2.(Q1 + Q2)
Cette idée simple n'est malheureusement pas très
bonne. Qc est effectivement sans biais, mais sa variance,
bien que plus petite que la plus grande valeur
1²
et
2²,
peut cependant être plus grande que la plus petite de ces deux valeurs. Ainsi
défini, Qc peut donc être un estimateur de Q plus mauvais
que le meilleur de Q1 et Q2.
Une meilleure idée est de rechercher une combinaison linéaire plus générale de Q1 and Q2 ,
Qc =
1.Q1
+
2.Q2
en exigeant que :
* Qc soit sans biais,
* et de variance minimale.
Nous montrons ici que la solution est :
|
|
et que la variance de Qc est alors :
|
|
qui est clairement plus petite que
1² et
2².
Donc si les variances
1²
et
2²
de Q1 de Q2 sont connues, la meilleure estimation possible
de Q est :
Q*c =
1.Q*1 +
2 .Q*2
avec les valeurs de
1 et
de
2 ci-dessus.
Attention : ceci ne veut pas dire que Q*c est plus proche de la vraie valeur de Q que Q*1 et Q*2 (on ne peut affirmer qu'il est plus proche de la valeur de Q que pour au plus un des Q*1 ou Q*2, sans d'ailleurs savoir lequel). Le résultat précédent veut seulement dire que Qc a une distribution plus étroite que celle de Q1 et que celle de Q2. En d'autres termes, Q*c est une meilleure estimation de la valeur de Q que ne le sont Q*1 et Q*2 (ou tout autre combinaison linéaire de Q*1 et Q*2), mais qu'il est possible que, par malchance, l'erreur ( Q*c - Q) soit supérieure à ( Q*c - Q1) ou bien ( Q*c - Q2) (mais de toutes façons pas aux deux).
________________________________
* Q (la quantité à estimer) est la moyenne d'une distribution,
* et que Q*1 and Q*2 sont les moyennes empiriques de deux échantillons de tailles différentes,
alors, Qc est non seulement la meilleure combinaison linéaire de Q1 and Q2, mais est est le meilleur estimateur possible de Q.
________________________________
La question de la combinaison d'estimateurs indépendants est reliée à celle de la Régression Linéaire par Moindres Carrés Pondérés. L'expression de Qc peut s'écrire également :
Qc = (
1².
2²
/ (
1²
+
2²)).[
Q1/
1²
+ Q2 /
2²]
qui montre que le meilleur estimateur de Q est une combinaison linéaire de Q1 et Q2 dont les coefficients sont inversement proportionnels aux variances respectives des estimateurs. Rappelons que la Droite des Moindres Carrés Pondérés, qui est le meilleur estimateur de y (la variable dépendante), est obtenue en minimisant la somme des carrés des résidus pondérés, chaque résidu étant affecté d'un "poids" inversement proportionnel à la variance locale de y.
________________________________
L'animation suivante illustre le concept de "meilleure combinaison linéaire d'estimateurs indépendants".
|
|
L'animation propose :
* Deux gaussiennes, qui représentent les estimateurs Q1 et Q2 (Note : il n'est cependant pas nécessaire que Q1 et Q2 soient gaussiens).
* Ces courbes sont centrées sur des traits verticaux épais qui représentent la quantité Q à estimer.
* Sous chacune des courbes se trouve un trait vertical fin représentant les estimations Q*1 et Q*2.
* Le cadre inférieur montre :
1) Un gaussienne rouge Qc, combinaison linéaire des deux courbes précédentes. Les coefficients de la combinaison linéaire sont positifs et de somme égale à "1". Ils sont initialisés à "0,5", mais peuvent être modifiés manuellement grâce au curseur situé à droite des cadres, et intitulé "Lambda".
Sous la courbe se trouve un trait vertical fin de couleur jaune qui est Q*c, la combinaison linéaire courante de Q*1 et Q*2.
2) Une gaussienne noire représentant la combinaison linéaire optimale de Q1 and Q2.
__________
* Changez la valeur de Lambda avec le curseur, et observez que l'écart-type (largeur) de la gaussienne rouge varie, mais n'est jamais inférieur à celui de la gaussienne noire. Il y a égalité des écarts-types pour une seule valeur de Lambda, et donc une seule position du curseur. Vous pouvez atteindre cette position automatiquement en cliquant sur le petit bouton "Best" situé sous le curseur.
* Notez que dans la position optimale, l'écart-type de la gaussienne rouge est inférieur à celui de Q1 et à celui de Q2.
* Quand
est égal à "1", la courbe rouge est identique à Q1. Elle
est identique à Q2 quand
est égal à "0".
* Changez les largeurs (variances) de Q1 et Q2 en faisant glisser leurs flancs droits avec votre souris. Observez les variations des gaussiennes rouge (combinaison courante) et noire (combinaison optimale).
* Cliquez sur "Go", et observez la construction progressive de la distribution de Q*c qui s'adapte progressivement à la gaussienne rouge.
____________________________________
Voir aussi: