Tutoriels

Cramér-Rao  (Inégalité de)

Une inégalité importante qui fixe une borne inférieure à la variance d'un estimateur sans biais d'un paramètre q d'une distribution (sous certaines conditions de régularité).

Estimateur sans biais

Soit q un paramètre d'une distribution. Rappelons qu'un estimateur q* de q est dit "sans biais" si son espérance est égale à q pour toute valeur de q :

E[q*] = q 

 

La propriété la plus désirable pour un estimateur est d'avoir une faible Erreur Quadratique Moyenne (EQM), ce qui n'exige pas forcément d'être sans biais. Mais les estimateurs sans biais jouissent cependant d'une grande popularité parce que leurs propriétés sont plus faciles à étudier que celles d'éventuels estimateurs ayant une EQM plus faible, mais biaisés. En particulier, l'EQM d'un estimateur sans biais est tout simplement sa variance.

 

Un même paramètre peut avoir plusieurs estimateurs sans biais (voire une infinité). Par exemple, la moyenne empirique et la médiane empirique sont toutes deux des estimateurs sans biais de la moyenne de la distribution normale, et on sait que la variance de la moyenne est alors inférieure à celle de la médiane. La moyenne est donc dans ce cas un estimateur meilleur que la médiane.

Il est alors naturel de se poser la question :

Etant donné un paramètre q d'une distribution, quelle est la plus petite variance que l'on puisse espérer pour un estimateur sans biais de q ?

La réponse est donnée, en partie, par l'inégalité de Cramér-Rao, que nous donnons ci-dessous.

Fonction "score"

Définition du score

Soit p(x, q) une distribution (continue ou discrète) dépendant du paramètre q. Tirons un échantillon X = (x1, x2, ..., xn) de taille n de p(x, q). La vraisemblance L de cet échantillon est :

L = Pi p(xi, q

 Comme souvent, il sera plus commode de considérer sa log-vraisemblance LL :

LL = log(L) = Si log( p(xi, q))

 

LL dépend de q, et d'ailleurs l'idée de départ de la méthode d'estimation par Maximum de Vraisemblance et de trouver la valeur de q qui rendra maximale la vraisemblance (et donc la log-vraisemblance) de l'échantillon. Si p(x, q) est suffisamment régulière, LL est une fonction dérivable de q, et la dérivée de LL s'appelle le score de l'échantillon, que nous noterons s(X, q).

Donc, par définition :

  

La méthode du Maximum de Vraisemblance recherche donc la valeur de q qui annule le score de l'échantillon.

Interprétation du score

La valeur du score d'un échantillon est une mesure de la sensibilité de sa log-vraisemblance à la valeur de q. Si le score a une très faible valeur pour une valeur particulière de q, la vraisemblance de l'échantillon (c'est à dire sa densité de probababilité) sera très peu sensible à de petites variations de la valeur de q :

    * Certaines observations de l'échantillon verront leur contribution à la log-vraisemblance augmenter,

    * Alors que d'autres verront leur contribution à la log-vraisemblance diminuer,

pour un bilan global à peu près nul.

Les observations n'arrivent donc pas à s'accorder entre elles sur la direction du changement à apporter à la valeur de q pour augmenter la vraisemblance de l'échantillon.

 

On doit donc s'attendre, dans une perspective d'estimation de q, à ce que l'échantillon contienne peu d'information sur la vraie valeur de ce paramètre.


Bien que cette ligne de pensée rappelle celle qui conduit à l'estimation par Maximum de Vraisemblance, nous ne cherchons pas ici à maximiser la vraisemblance.

Le score est une variable aléatoire

Pour une valeur donnée de q , le score dépend de l'échantillon, et est donc une variable aléatoire. Quelles sont ses propriétés ?

Nous montrerons que, sous certaines conditions de régularité, cette v.a. est centrée (espérance nulle) :

E[s(X, q)] = 0

 

Que dire de sa variance Var(s(X, q)) ?

Supposons que cette variance soit très petite pour une valeur donnée de q. Ceci veut dire que presque tous les échantillons auront alors un score proche de 0 (l'espérance du score), et donc que presque tous les échantillons ne contiendront qu'une faible quantité d'information sur la valeur réelle de q (voir ci-dessus).

Considérons maintenant q*, un estimateur sans biais quelconque de q. Si la variance du score est très petite, et donc si presque tous les échantillons ne contiennent que peu d'information sur la valeur du paramètre q, on ne peut certainement pas espérer de q* qu'il puisse faire correctement son travail d'estimateur sans biais, c'est à dire qu'il ait une faible variance. Nous pouvons donc redouter que q* ait une forte variance.

 

On peut donc s'attendre à ce qu'il y existe une relation négative entre :

    * Variance du score,  et

    * Variance de tout estimateur sans biais de q.

L'inégalité de Cramér-Rao

Forme "de base"

Cette intuition est justifiée, et nous montrerons que (sous certaines conditions de régularité), pour tout estimateur sans biais q* de q :

 

 

Cette relation établit une borne inférieure à la variance que l'on peut espérer d'un estimateur sans biais de q. Elle s'appelle l'inégalité de Cramér-Rao (ou parfois "de Fréchet-Darmois-Cramér-Rao" dans la littérature francophone).

Première forme opérationnelle

Pour simple qu'elle soit, l'inégalité précédente n'est pas directement exploitable car nous ne connaissons pas Var(s(X, q)), dont il faut trouver l'expression en fonction du donné, c'est à dire de p(x, q). C'est ce que nous faisons dans le Tutoriel ci-dessous, ce qui nous conduira à la première forme opérationnelle de l'inégalité de Cramér-Rao :

 

Information de Fisher

Le dénominateur s'appelle l'information (de Fisher) contenue dans un échantillon de taille n. La raison de cette appellation est claire : plus grande est l'information (sous-entendu : "sur la valeur du paramètre"), plus précises seront les prédictions d'un estimateur sans biais dont la variance est égale à la borne de Cramér-Rao.

Il est donc courant de voir l'inégalité de Cramér-Rao écrite sous la forme :

 

 

Deuxième forme opérationnelle

Sous certaines conditions de régularité, que nous expliciterons, l'inégalité de Cramér-Rao peut également être mise sous la deuxième forme opérationnelle :

 

 

dont la mise en œuvre est souvent plus aisée que pour la première forme, comme nous le verrons dans le Tutoriel ci-dessous.

 
Notez le signe "-".

La borne est-elle atteinte ?

L'inégalité de Cramér-Rao produit une borne inférieure de la variance d'un estimateur sans biais, mais ne dit rien sur le fait que cette borne soit atteinte ou non. Autrement dit, rien ne garantit qu'il existe effectivement un estimateur sans biais de q dont la variance soit égale à la borne inférieure de Cramér-Rao. De fait, on peut par exemple exhiber des cas où cette borne théorique est égale à 0, et donc évidemment inaccessible.

 

Il existe deux conditions nécessaires et suffisantes à l'existence d'un estimateur efficace.

Linéarité du score

Nous montrerons qu'il existe effectivement un estimateur sans biais de q dont la variance est égale à la borne de Cramér-Rao si et seulement si la fonction score peut être mise sous la forme suivante :

s(X, q) = a(q).[h(X) - q]

où :

    * a(q) est une fonction de q seulement,  et

    * h(X) est une fonction ne dépendant que de l'échantillon et pas de q (une statistique).

 

q* = h(X) est alors (et alors seulement) un estimateur sans biais de q atteignant la borne de Cramér-Rao : un tel estimateur est dit efficace.

 

Nous montrerons que la variance de q* est alors égale à 1/a(q).

-----

En fait, la question de l'existence d'un estimateur efficace doit être replacée dans un cadre un peu élargi. La "bonne" question est : "Existe-t-il une fonction g telle qu'il existe un estimateur efficace de g(q) ?".

Une simple modification de la démonstration du résultat ci-dessus montre que la condition nécessaire et suffisante à cette double existence est que le score puisse s'écrire sous la forme :

 

s(X, q) = a(q).[h(X) - g(q)]

 

 

h(X) est alors un estimateur efficace de g(q), dont la variance est égale à g'(q)/a(q).

-----

De ce résultat, nous déduirons qu'il existe au plus une seule fonction g(q) du paramètre q qui peut être estimée efficacement. En conséquence, s'il existe une fonction g vérifiant la relation ci-dessus, et si cette fonction n'est pas la fonction identité, alors il n'existe pas d'estimateur efficace de q.

Famille exponentielle

Il existe une deuxième caractérisation de l'existence d'un estimateur efficace. Nous montrerons que, à quelques réserves près, il existe une fonction g(q) pouvant être estimée efficacement si et seulement si la distribution p(x, q) est de la forme :

 

p(x, q) = exp[A(x)B(q) + C(x) + D(q)]

 

 

et donc appartient à la  famille exponentielle.

 

Nous identifierons alors la fonction g(q) ainsi que son estimateur efficace.

Estimateur efficace et Estimateur sans biais de Variance Minimale

    * Un estimateur efficace est évidemment un Estimateur sans biais de Variance Minimale.

    * Mais si la condition ci-dessus n'est pas satisfaite, un Estimateur sans biais de Variance Minimale aura une variance supérieure à la borne de Cramér-Rao.

    * A l'inverse, lorsque les conditions de régularité permettant l'établissement de l'inégalité de Cramér-Rao ne sont pas vérifiées, les expressions entrant dans cette inégalité ont parfois un sens et peuvent être calculées, mais il peut alors exister des estimateurs sans biais dont les variances sont inférieures à la borne (sans signification) de Cramér-Rao. Nous verrons qu'il en est par exemple ainsi pour la distribution uniforme.

Estimateur efficace et Statistique exhaustive

Soit p(x, q) une distribution de probabilité.

Nous montrerons que :

 

S'il existe un estimateur efficace d'une fonction g(q), alors cet estimateur est une statistique exhaustive pour q.

 

Il apparaît donc que la notion de "statistique exhaustive" est moins forte que celle "d'estimateur efficace" :

    * Si q* est un estimateur efficace d'une fonction g(q), il est également une statistique exhaustive pour q.

    * Mais q peut avoir une statistique exhaustive sans qu'il existe pour autant de fonction g(q) admettant un estimateur efficace.

Unicité

Si q* est un estimateur sans biais efficace de q, alors il est le seul : tout autre estimateur sans biais de q aura une variance strictement supérieure à celle de q*.

 

Un estimateur efficace de q, s'il existe, est unique.

 

 

Cette propriété n'est pas spécifique aux estimateurs efficaces : elle est vraie pour tout Estimateur sans biais de Variance Minimale et est démontrée ici.

Estimateur efficace et Maximum de Vraisemblance

Il existe des liens étroits entre :

    * Borne de Cramér-Rao,  et

    * Estimation d'un paramètre par Maximum de Vraisemblance.

 

    a) Nous montrerons que si un estimateur sans biais q* d'un paramètre q atteint la borne de Cramér-Rao (estimateur efficace), alors il est égal à l'unique estimateur par Maximum de Vraisemblance q*MV de q.

 

q* efficace      q* = q*MV 

 

 

La réciproque est fausse : un estimateur par Maximum de Vraisemblance n'est pas obligatoirement efficace. Mais nous énonçons ci-dessous qu'il est néanmoins asymptotiquement efficace.

 

    b) Une des propriétés les plus importantes de l'estimation par Maximum de Vraisemblance est qu'un EMV (Estimateur par Maximum de Vraisemblance) atteint asymptotiquement la borne de Cramér-Rao.

Plus précisément, si :

    * p(x, q) est une distribution de probabilité,

    * {q* n} est la suite d'EMV de q,

 

alors, sous certaines conditions de régularité, on montre que :

n1/2(q* - q)     converge en loi vers     N(0, I1-1)

I1 désigne l'information de Fisher pour une échantillon de taille 1.

Ainsi un EMV est non seulement convergent et asymptotiquement normalement distribué, mais il est également asymptotiquement efficace.

Généralisations

L'inégalité de Cramér-Rao admet plusieurs généralisations :

Estimateurs biaisés

Nous n'avons considéré jusqu'ici que des estimateurs sans biais, en raison de leur attractivité naturelle. Mais la question de l'existence d'une borne inférieure de l'Erreur Quadratique Moyenne (EQM) d'un estimateur biaisé se pose de la même façon.

Soit donc q* un estimateur de biais b(q) (en général, le biais dépend de la valeur du paramètre).

En reprenant avec de légères modifications la démonstration de l'inégalité de Cramér-Rao, le lecteur montrera aisément que :

 

Si l'estimateur est sans biais,  d/dq E[q*] = 1, et on retrouve la version "de base" de l'inégalité de Cramér-Rao.

 

Mais il est possible d'aller plus loin. Rappelons que l'EQM d'un estimateur est donnée par :

EQM = Var + Biais²

et il est alors possible de trouver une borne inférieure à l'EQM d'un estimateur biaisé. On a alors :

 

où " ' " désigne la dérivation par rapport à q.

Fonction du paramètre

Au lieu d'estimer le paramètre q, on peut être intéreressé par l'estimation d'une fonction de q : par exemple, on peut chercher à estimer un écart-type au lieu d'une variance.

Soit donc g(q) la fonction du paramètre q que l'on cherche à estimer. Une légère modification de la démonstration conduit alors facilement au résultat suivant :

Forme la plus générale

La forme la plus générale de l'inégalité de Cramér-Rao pour l'EQM d'un estimateur de biais b(q) d'une fonction g(q) est donc :

 

 

___________________________________________________

 

 

Tutoriel 1

 

Dans ce Tutoriel :

    * Nous démontrons la forme "de base" de l'inégalité de Cramér-Rao, qui ne fait intervenir que la variance du score.

    * Nous donnons une forme explicite de cette variance en fonction de p(x, q), ce qui permet de rendre opérationnelle l'inégalité trouvée.

    * Nous donnons de l'inégalité de Cramér-Rao sa deuxième forme opérationelle.

 

Nous revenons enfin sur les conditions de régularité qu'une distribution de probabilité doit satisfaire pour que l'inégalité de Cramér-Rao lui soit applicable.

 

 

 

L'INEGALITE DE CRAMER-RAO

La fonction "score"

Définition du score

Espérance du score

L'inégalité de Cramér-Rao

Idée directrice et plan de la démonstration

Covariance du score et d'un estimateur sans biais

L'inégalité de Cramér-Rao de base

Variance du score

Première forme de l'inégalité de Cramér-Rao

Deuxième forme de l'inégalité de Cramér-Rao

Conditions de régularité

Bornes d'intégration fixes

Bornes d'intégration variables

TUTORIEL

________________________________________________________

 

 

Tutoriel 2

 

Nous établissons maintenant une condition nécessaire et suffisante pour qu'une distribution de probabilité p(x, q) admette un estimateur efficace du paramètre q, et calculons une expression utile de la variance de cet estimateur.

La généralisation de cette condition à l'estimation d'une fonction du paramètre q nous amènera à conclure qu'il existe au plus une seule fonction de q admettant un estimateur efficace. Si cette fonction n'est pas la fonction "identité", alors  le paramètre q n'a pas d'estimateur efficace.  

-----

Nous établissons ensuite deux conséquences importantes de l'existence d'un estimateur efficace :

    * Si le paramètre q de p(x, q) a un estimateur efficace, alors cet estimateur est égal à l'unique estimateur de q par Maximum de Vraisemblance.

    * S'il existe une fonction g(q) ayant un estimateur efficace, alors cet estimateur est une statistique exhaustive pour q.

 

 

 

ESTIMATEUR EFFICACE

Condition nécessaire et suffisante pour l'existence d'un estimateur efficace

Condition nécessaire et suffisante pour l'égalité

Variance de l'estimateur efficace

Estimateur efficace d'une fonction du paramètre

Estimateur efficace et Maximum de Vraisemblance

Estimateur efficace et Statistique exhaustive

Retour sur le Théorème de Factorisation

Un estimateur efficace est une statistique exhaustive

TUTORIEL

_______________________________________________________________________

 

 

Tutoriel 3

 

Nous passons en revue quelques applications de l'inégalité de Cramér-Rao afin de déterminer si certains estimateurs classiques sont ou non efficaces.

Nous examinerons des distributions continues (normale pour la moyenne et la variance, exponentielle pour la moyenne), mais également des distributions discrètes (Bernoulli et Poisson pour leurs paramètres respectifs).

A cette fin, nous utiliserons l'inégalité de Cramér-Rao sous ses première et deuxième forme, ainsi que la condition nécessaire et suffisante pour que la borne de Cramér-Rao soit effectivement atteinte.

-----

Nous passerons enfin quelque temps sur la distribution uniforme U[0, q]. Nous montrerons que les conditions nécessaires à l'établissement de l'inégalité de Cramér-Rao ne sont pas respectées, et nous vérifierons directement les conséquences de ce non-respect sur certaines étapes du calcul de la borne.

Puis nous identifierons un estimateur sans biais de q, et montrerons que sa variance et inférieure à la borne (sans signification) de Cramér-Rao.

 

 

 

 

EXEMPLES D'APPLICATION

DE L'INEGALITE DE CRAMER-RAO

Moyenne de la distribution normale

Borne de Cramér-Rao

La moyenne empirique est efficace

Variance de la distribution normale

La borne peut être atteinte

La moyenne de la distribution est connue

La moyenne de la distribution est inconnue

Moyenne de la distribution exponentielle

Borne de Cramér-Rao

La moyenne empirique est efficace

Paramètre de la distribution de Bernoulli

Borne de Cramér-Rao

La moyenne empirique est efficace

Deuxième méthode : condition N et S de l'efficacité

Distribution de Poisson

Borne de Cramér-Rao

La moyenne empirique est efficace

Un échec de l'inégalité de Cramér-Rao : la distribution uniforme

Les conditions de régularité ne sont pas satisfaites

Information de l'échantillon

Un estimateur sans biais dont la variance est inférieure à la borne de CR

L'estimateur

Variance de l'estimateur 

TUTORIEL

 

_________________________________________________________

 

Voir aussi :

Estimation

Erreur Quadratique Moyenne

Estimateur sans biais de Variance Minimale

Famille exponentielle

Maximum de Vraisemblance

Statistique exhaustive

Théorème de Rao-Blackwell

Téléchargez ce Glossaire