|
Tutoriels |
Cramér-Rao (Inégalité de)
Une inégalité importante qui fixe une borne inférieure à la variance d'un estimateur sans biais d'un paramètre q d'une distribution (sous certaines conditions de régularité).
Soit q un paramètre d'une distribution. Rappelons qu'un estimateur q* de q est dit "sans biais" si son espérance est égale à q pour toute valeur de q :
E[q*] = q
La propriété la plus désirable pour un estimateur est d'avoir une faible Erreur Quadratique Moyenne (EQM), ce qui n'exige pas forcément d'être sans biais. Mais les estimateurs sans biais jouissent cependant d'une grande popularité parce que leurs propriétés sont plus faciles à étudier que celles d'éventuels estimateurs ayant une EQM plus faible, mais biaisés. En particulier, l'EQM d'un estimateur sans biais est tout simplement sa variance.
Un même paramètre peut avoir plusieurs estimateurs sans biais (voire une infinité). Par exemple, la moyenne empirique et la médiane empirique sont toutes deux des estimateurs sans biais de la moyenne de la distribution normale, et on sait que la variance de la moyenne est alors inférieure à celle de la médiane. La moyenne est donc dans ce cas un estimateur meilleur que la médiane.
Il est alors naturel de se poser la question :
Etant donné un paramètre q d'une distribution, quelle est la plus petite variance que l'on puisse espérer pour un estimateur sans biais de q ?
La réponse est donnée, en partie, par l'inégalité de Cramér-Rao, que nous donnons ci-dessous.
Soit p(x, q) une distribution (continue ou discrète) dépendant du paramètre q. Tirons un échantillon X = (x1, x2, ..., xn) de taille n de p(x, q). La vraisemblance L de cet échantillon est :
L = Pi p(xi, q)
Comme souvent, il sera plus commode de considérer sa log-vraisemblance LL :
LL = log(L) = Si log( p(xi, q))
LL dépend de q, et d'ailleurs l'idée de départ de la méthode d'estimation par Maximum de Vraisemblance et de trouver la valeur de q qui rendra maximale la vraisemblance (et donc la log-vraisemblance) de l'échantillon. Si p(x, q) est suffisamment régulière, LL est une fonction dérivable de q, et la dérivée de LL s'appelle le score de l'échantillon, que nous noterons s(X, q).
Donc, par définition :

La méthode du Maximum de Vraisemblance recherche donc la valeur de q qui annule le score de l'échantillon.
La valeur du score d'un échantillon est une mesure de la sensibilité de sa log-vraisemblance à la valeur de q. Si le score a une très faible valeur pour une valeur particulière de q, la vraisemblance de l'échantillon (c'est à dire sa densité de probababilité) sera très peu sensible à de petites variations de la valeur de q :
* Certaines observations de l'échantillon verront leur contribution à la log-vraisemblance augmenter,
* Alors que d'autres verront leur contribution à la log-vraisemblance diminuer,
pour un bilan global à peu près nul.
Les observations n'arrivent donc pas à s'accorder entre elles sur la direction du changement à apporter à la valeur de q pour augmenter la vraisemblance de l'échantillon.
On doit donc s'attendre, dans une perspective d'estimation de q, à ce que l'échantillon contienne peu d'information sur la vraie valeur de ce paramètre.
Bien que cette ligne de pensée rappelle celle qui conduit
à l'estimation par Maximum de Vraisemblance, nous ne cherchons pas
ici à maximiser la vraisemblance.
Pour une valeur donnée de q , le score dépend de l'échantillon, et est donc une variable aléatoire. Quelles sont ses propriétés ?
Nous montrerons que, sous certaines conditions de régularité, cette v.a. est centrée (espérance nulle) :
E[s(X, q)] = 0
Que dire de sa variance Var(s(X, q)) ?
Supposons que cette variance soit très petite pour une valeur donnée de q. Ceci veut dire que presque tous les échantillons auront alors un score proche de 0 (l'espérance du score), et donc que presque tous les échantillons ne contiendront qu'une faible quantité d'information sur la valeur réelle de q (voir ci-dessus).
Considérons maintenant q*, un estimateur sans biais quelconque de q. Si la variance du score est très petite, et donc si presque tous les échantillons ne contiennent que peu d'information sur la valeur du paramètre q, on ne peut certainement pas espérer de q* qu'il puisse faire correctement son travail d'estimateur sans biais, c'est à dire qu'il ait une faible variance. Nous pouvons donc redouter que q* ait une forte variance.
On peut donc s'attendre à ce qu'il y existe une relation négative entre :
* Variance du score, et
* Variance de tout estimateur sans biais de q.
Cette intuition est justifiée, et nous montrerons que (sous certaines conditions de régularité), pour tout estimateur sans biais q* de q :
|
|
Cette relation établit une borne inférieure à la variance que l'on peut espérer d'un estimateur sans biais de q. Elle s'appelle l'inégalité de Cramér-Rao (ou parfois "de Fréchet-Darmois-Cramér-Rao" dans la littérature francophone).
Pour simple qu'elle soit, l'inégalité précédente n'est pas directement exploitable car nous ne connaissons pas Var(s(X, q)), dont il faut trouver l'expression en fonction du donné, c'est à dire de p(x, q). C'est ce que nous faisons dans le Tutoriel ci-dessous, ce qui nous conduira à la première forme opérationnelle de l'inégalité de Cramér-Rao :
|
|
Le dénominateur s'appelle l'information (de Fisher) contenue dans un échantillon de taille n. La raison de cette appellation est claire : plus grande est l'information (sous-entendu : "sur la valeur du paramètre"), plus précises seront les prédictions d'un estimateur sans biais dont la variance est égale à la borne de Cramér-Rao.
Il est donc courant de voir l'inégalité de Cramér-Rao écrite sous la forme :

Sous certaines conditions de régularité, que nous expliciterons, l'inégalité de Cramér-Rao peut également être mise sous la deuxième forme opérationnelle :
|
|
dont la mise en œuvre est souvent plus aisée que pour la première forme, comme nous le verrons dans le Tutoriel ci-dessous.
L'inégalité de Cramér-Rao produit une borne inférieure de la variance d'un estimateur sans biais, mais ne dit rien sur le fait que cette borne soit atteinte ou non. Autrement dit, rien ne garantit qu'il existe effectivement un estimateur sans biais de q dont la variance soit égale à la borne inférieure de Cramér-Rao. De fait, on peut par exemple exhiber des cas où cette borne théorique est égale à 0, et donc évidemment inaccessible.
Il existe deux conditions nécessaires et suffisantes à l'existence d'un estimateur efficace.
Nous montrerons qu'il existe effectivement un estimateur sans biais de q dont la variance est égale à la borne de Cramér-Rao si et seulement si la fonction score peut être mise sous la forme suivante :
s(X, q) = a(q).[h(X) - q]
où :
* a(q) est une fonction de q seulement, et
* h(X) est une fonction ne dépendant que de l'échantillon et pas de q (une statistique).
q* = h(X) est alors (et alors seulement) un estimateur sans biais de q atteignant la borne de Cramér-Rao : un tel estimateur est dit efficace.
Nous montrerons que la variance de q* est alors égale à 1/a(q).
-----
En fait, la question de l'existence d'un estimateur efficace doit être replacée dans un cadre un peu élargi. La "bonne" question est : "Existe-t-il une fonction g telle qu'il existe un estimateur efficace de g(q) ?".
Une simple modification de la démonstration du résultat ci-dessus montre que la condition nécessaire et suffisante à cette double existence est que le score puisse s'écrire sous la forme :
|
s(X, q) = a(q).[h(X) - g(q)] |
h(X) est alors un estimateur efficace de g(q), dont la variance est égale à g'(q)/a(q).
-----
De ce résultat, nous déduirons qu'il existe au plus une seule fonction g(q) du paramètre q qui peut être estimée efficacement. En conséquence, s'il existe une fonction g vérifiant la relation ci-dessus, et si cette fonction n'est pas la fonction identité, alors il n'existe pas d'estimateur efficace de q.
Il existe une deuxième caractérisation de l'existence d'un estimateur efficace. Nous montrerons que, à quelques réserves près, il existe une fonction g(q) pouvant être estimée efficacement si et seulement si la distribution p(x, q) est de la forme :
|
p(x, q) = exp[A(x)B(q) + C(x) + D(q)] |
et donc appartient à la famille exponentielle.
Nous identifierons alors la fonction g(q) ainsi que son estimateur efficace.
* Un estimateur efficace est évidemment un Estimateur sans biais de Variance Minimale.
* Mais si la condition ci-dessus n'est pas satisfaite, un Estimateur sans biais de Variance Minimale aura une variance supérieure à la borne de Cramér-Rao.
* A l'inverse, lorsque les conditions de régularité permettant l'établissement de l'inégalité de Cramér-Rao ne sont pas vérifiées, les expressions entrant dans cette inégalité ont parfois un sens et peuvent être calculées, mais il peut alors exister des estimateurs sans biais dont les variances sont inférieures à la borne (sans signification) de Cramér-Rao. Nous verrons qu'il en est par exemple ainsi pour la distribution uniforme.
Soit p(x, q) une distribution de probabilité.
Nous montrerons que :
|
S'il existe un estimateur efficace d'une fonction g(q), alors cet estimateur est une statistique exhaustive pour q. |
Il apparaît donc que la notion de "statistique exhaustive" est moins forte que celle "d'estimateur efficace" :
* Si q* est un estimateur efficace d'une fonction g(q), il est également une statistique exhaustive pour q.
* Mais q peut avoir une statistique exhaustive sans qu'il existe pour autant de fonction g(q) admettant un estimateur efficace.
Si q* est un estimateur sans biais efficace de q, alors il est le seul : tout autre estimateur sans biais de q aura une variance strictement supérieure à celle de q*.
|
Un estimateur efficace de q, s'il existe, est unique. |
Cette propriété n'est pas spécifique aux estimateurs efficaces : elle est vraie pour tout Estimateur sans biais de Variance Minimale et est démontrée ici.
Il existe des liens étroits entre :
* Borne de Cramér-Rao, et
* Estimation d'un paramètre par Maximum de Vraisemblance.
a) Nous montrerons que si un estimateur sans biais q* d'un paramètre q atteint la borne de Cramér-Rao (estimateur efficace), alors il est égal à l'unique estimateur par Maximum de Vraisemblance q*MV de q.
|
q*
efficace |
La réciproque est fausse : un estimateur par Maximum de Vraisemblance n'est pas obligatoirement efficace. Mais nous énonçons ci-dessous qu'il est néanmoins asymptotiquement efficace.
b) Une des propriétés les plus importantes de l'estimation par Maximum de Vraisemblance est qu'un EMV (Estimateur par Maximum de Vraisemblance) atteint asymptotiquement la borne de Cramér-Rao.
Plus précisément, si :
* p(x, q) est une distribution de probabilité,
* {q* n} est la suite d'EMV de q,
alors, sous certaines conditions de régularité, on montre que :
n1/2(q* - q) converge en loi vers N(0, I1-1)
où I1 désigne l'information de Fisher pour une échantillon de taille 1.
Ainsi un EMV est non seulement convergent et asymptotiquement normalement distribué, mais il est également asymptotiquement efficace.
L'inégalité de Cramér-Rao admet plusieurs généralisations :
Nous n'avons considéré jusqu'ici que des estimateurs sans biais, en raison de leur attractivité naturelle. Mais la question de l'existence d'une borne inférieure de l'Erreur Quadratique Moyenne (EQM) d'un estimateur biaisé se pose de la même façon.
Soit donc q* un estimateur de biais b(q) (en général, le biais dépend de la valeur du paramètre).
En reprenant avec de légères modifications la démonstration de l'inégalité de Cramér-Rao, le lecteur montrera aisément que :

Si l'estimateur est sans biais, d/dq E[q*] = 1, et on retrouve la version "de base" de l'inégalité de Cramér-Rao.
Mais il est possible d'aller plus loin. Rappelons que l'EQM d'un estimateur est donnée par :
EQM = Var + Biais²
et il est alors possible de trouver une borne inférieure à l'EQM d'un estimateur biaisé. On a alors :

où " ' " désigne la dérivation par rapport à q.
Au lieu d'estimer le paramètre q, on peut être intéreressé par l'estimation d'une fonction de q : par exemple, on peut chercher à estimer un écart-type au lieu d'une variance.
Soit donc g(q) la fonction du paramètre q que l'on cherche à estimer. Une légère modification de la démonstration conduit alors facilement au résultat suivant :

La forme la plus générale de l'inégalité de Cramér-Rao pour l'EQM d'un estimateur de biais b(q) d'une fonction g(q) est donc :
|
|
___________________________________________________
|
Tutoriel 1 |
Dans ce Tutoriel :
* Nous démontrons la forme "de base" de l'inégalité de Cramér-Rao, qui ne fait intervenir que la variance du score.
* Nous donnons une forme explicite de cette variance en fonction de p(x, q), ce qui permet de rendre opérationnelle l'inégalité trouvée.
* Nous donnons de l'inégalité de Cramér-Rao sa deuxième forme opérationelle.
Nous revenons enfin sur les conditions de régularité qu'une distribution de probabilité doit satisfaire pour que l'inégalité de Cramér-Rao lui soit applicable.
L'INEGALITE DE CRAMER-RAO
|
La fonction "score" Définition du score Espérance du score L'inégalité de Cramér-Rao Idée directrice et plan de la démonstration Covariance du score et d'un estimateur sans biais L'inégalité de Cramér-Rao de base Variance du score Première forme de l'inégalité de Cramér-Rao Deuxième forme de l'inégalité de Cramér-Rao Conditions de régularité Bornes d'intégration fixes Bornes d'intégration variables |
||
|
TUTORIEL |
||
________________________________________________________
|
Tutoriel 2 |
Nous établissons maintenant une condition nécessaire et suffisante pour qu'une distribution de probabilité p(x, q) admette un estimateur efficace du paramètre q, et calculons une expression utile de la variance de cet estimateur.
La généralisation de cette condition à l'estimation d'une fonction du paramètre q nous amènera à conclure qu'il existe au plus une seule fonction de q admettant un estimateur efficace. Si cette fonction n'est pas la fonction "identité", alors le paramètre q n'a pas d'estimateur efficace.
-----
Nous établissons ensuite deux conséquences importantes de l'existence d'un estimateur efficace :
* Si le paramètre q de p(x, q) a un estimateur efficace, alors cet estimateur est égal à l'unique estimateur de q par Maximum de Vraisemblance.
* S'il existe une fonction g(q) ayant un estimateur efficace, alors cet estimateur est une statistique exhaustive pour q.
ESTIMATEUR EFFICACE
|
Condition nécessaire et suffisante pour l'existence d'un estimateur efficace Condition nécessaire et suffisante pour l'égalité Variance de l'estimateur efficace Estimateur efficace d'une fonction du paramètre Estimateur efficace et Maximum de Vraisemblance Estimateur efficace et Statistique exhaustive Retour sur le Théorème de Factorisation Un estimateur efficace est une statistique exhaustive |
||
|
TUTORIEL |
||
_______________________________________________________________________
|
Tutoriel 3 |
Nous passons en revue quelques applications de l'inégalité de Cramér-Rao afin de déterminer si certains estimateurs classiques sont ou non efficaces.
Nous examinerons des distributions continues (normale pour la moyenne et la variance, exponentielle pour la moyenne), mais également des distributions discrètes (Bernoulli et Poisson pour leurs paramètres respectifs).
A cette fin, nous utiliserons l'inégalité de Cramér-Rao sous ses première et deuxième forme, ainsi que la condition nécessaire et suffisante pour que la borne de Cramér-Rao soit effectivement atteinte.
-----
Nous passerons enfin quelque temps sur la distribution uniforme U[0, q]. Nous montrerons que les conditions nécessaires à l'établissement de l'inégalité de Cramér-Rao ne sont pas respectées, et nous vérifierons directement les conséquences de ce non-respect sur certaines étapes du calcul de la borne.
Puis nous identifierons un estimateur sans biais de q, et montrerons que sa variance et inférieure à la borne (sans signification) de Cramér-Rao.
EXEMPLES D'APPLICATION
DE L'INEGALITE DE CRAMER-RAO
|
Moyenne de la distribution normale Borne de Cramér-Rao La moyenne empirique est efficace Variance de la distribution normale La borne peut être atteinte La moyenne de la distribution est connue La moyenne de la distribution est inconnue Moyenne de la distribution exponentielle Borne de Cramér-Rao La moyenne empirique est efficace Paramètre de la distribution de Bernoulli Borne de Cramér-Rao La moyenne empirique est efficace Deuxième méthode : condition N et S de l'efficacité Distribution de Poisson Borne de Cramér-Rao La moyenne empirique est efficace Un échec de l'inégalité de Cramér-Rao : la distribution uniforme Les conditions de régularité ne sont pas satisfaites Information de l'échantillon Un estimateur sans biais dont la variance est inférieure à la borne de CR L'estimateur Variance de l'estimateur |
||
|
TUTORIEL |
||
_________________________________________________________
Voir aussi :
|