Exhaustive  (Statistique)

Soit p(x; θ) une distribution de probabilité connue à l'exception de la valeur du paramètre θ.

Soit également x = {x1, x2, ..., xn } un échantillon de taille n issu de cette distribution. Toute l'information disponible pour l'estimation de la valeur de θ est contenue dans cet échantillon.

Un estimateur perd de l'information

Pour estimer θ, nous construisons une statistique (une fonction qui ne dépend que des observations et pas de θ) ayant de "bonnes" propriétés. Par exemple, nous ferons en sorte que l'espérance de cette statistique soit égale à θ : nous aurons alors construit un estimateur sans biais de θ.

Cependant, nous pouvons légitimement être inquiets de ce que, partant d'un ensemble de n valeurs, nous n'ayons plus maintenant qu'une seule valeur (l'estimation de θ). Cette réduction provoque certainement une perte d'information car la connaissance de la seule estimation ne permet pas de remonter à l'échantillon tout entier.

Information "utile" et information "inutile"

Il existe en Théorie de l'Estimation une ligne de pensée informelle mais très commode pour guider de nombreux raisonnements, et selon laquelle un échantillon contient :

    * De l'information utile pour l'estimation de θ,

    * Le reste de l'information disponible dans l'échantillon étant inutile pour cette estimation (bien que pouvant être utile pour d'autres applications).

 

On peut donc craindre que dans une statistique quelconque (et en particulier, dans un estimateur de θ) on ne retrouve qu'une partie de l'information utile à l'estimation de θ (ainsi qu'une certaine quantité d'information inutile) et en général, ceci est vrai.

Il est cependant remarquable dans sous certaines conditions, la création d'une statistique ne rejettera que de l'information "inutile" tout en préservant intégralement l'information "utile" à l'estimation de θ. Lorsque ceci est possible, on dit que la statistique ainsi obtenue est une statistique exhaustive pour θ.

 

 

 

A la page suivante, nous décrivons une expérience de pensée qui permet de donner à ce concept intuitif mais vague un contenu opérationnel qui se traduira par la définition formelle que nous donnons au paragraphe suivant.

 

Définition d'une statistique exhaustive

Soit p(x, θ) une distribution de probabilité.

Distribution de l'échantillon

Toute la Théorie de l'Estimation repose sur la connaissance de la distribution de probabilité de l'échantillon X = {X1, X2, ..., Xn }, que nous noterons L(X; θ). C'est à partir de cette distribution que l'on calcule (lorsque cela est possible) la distribution d'une statistique T(X).

Distribution de l'échantillon conditionnellement à la valeur d'une statistique

Nous noterons Lθ (X |T = t) la distribution de l'échantillon conditionnellement à la valeur t de la statistique T. En termes intuitifs (et impropres) :

    * Répétons à l'infini des tirages d'échantillons de taille n de la distribution p(x, θ) et ne retenons que ceux pour lesquels T = t.

    * Ces échantillons sont distribués comme Lθ (X |T = t).

Définition d'une statistique exhaustive

Nous donnons maintenant la définition formelle d'une statistique exhaustive :

 

Une statistique T est dit exhaustive pour le paramètre θ si la distribution de l'échantillon conditionnellement à la valeur de T ne dépend pas de θ.

 

En d'autres termes, nous pouvons supprimer l'indice θ de l'expression Lθ (X |T = t), qui sécrira alors simplement L(X |T = t).

 

L'expérience de pensée décrite à la page suivante explique comment la notion intuitive de "statistique qui contient toute l'information relative à θ" se traduit par cette définition quelque peu abstraite.

-----

Nous donnons également à la page suivante une interprétation géométrique de la notion d'exhaustivité qui peut apporter une aide visuelle à la compréhension de cette notion.

 

 

Remarques :
   1) Si T est exhaustive, la distribution de l'échantillon X conditionnellement à la valeur de T ne dépend pas de θ. Il en est donc de même de toute fonction f(X) de l'échantillon, c'est à dire de toute statistique. Donc si T est exhaustive, et si S est une statistique quelconque, la distribution de S conditionnellement à T ne dépend pas de θ. Cette remarque est très utile en pratique.
   2) Nous montrerons que si une statistique T est exhaustive pour θ, alors elle l'est également pour toute fonction bijective de θ.

Une condition nécessaire et suffisante d'exhaustivité

La définition d'une statistique exhaustive porte sur la distribution conditionnelle de l'échantillon.

Il existe une condition nécessaire et suffisante d'exhaustivité d'une statistique T qui porte sur la relation entre :

    * La distribution (inconditionnelle) de l'échantillon,

    * Et la distribution de la statistique T.

-----

Soit une distribution de probabilité, et la distribution conjointe L(X; θ) de l'échantillon X.

Soit également T une statistique de distribution de probabilité q(x; θ).

Nous montrerons que T est exhaustive pour θ si et seulement si le rapport :

L (X; θ) / q(T(X); θ)

qui semble dépendre de θ, ne dépend en fait pas de θ.

Statistique exhaustive et estimation sans biais

Le concept de statistique exhaustive est un élément essentiel de la recherche d'estimateurs sans biais de faible variance du paramètre θ jusqu'à la découverte du meilleur d'entre-eux : l'unique Estimateur Sans Biais de Variance Minimale (ESBVM), lorsqu'il existe. Cette découverte suit un long chemin, qui peut se résumer ainsi :

Théorème de Rao-Blackwell

Une statistique exhaustive n'est pas un estimateur, mais elle permet d'améliorer (réduire la variance) d'un estimateur sans biais déjà disponible.

Soit :

    * θ* un estimateur sans biais de θ.

    * T une statistique exhaustive pour θ.

Alors le Théorème de Rao-Blackwell énonce que

E[θ*T]

est également un estimateur sans biais de θ, et au moins aussi bon que θ* (variance inférieure ou égale à celle de θ*).

La création d'un estimateur sans biais "amélioré" par application du Théorème de Rao-Blackwell s'appelle la "blackwellistation" de l'estimateur initial par une statistique exhaustive.

Fonctions d'une statistique exhaustive

L'image d'une statistique exhaustive par une fonction bijective est encore exhaustive. Mais en général, l'image d'une statistique exhaustive par une fonction quelconque n'est pas exhaustive.

 

 

Cependant, il peut arriver que l'image S = f(T) d'une statistique exhaustive T par une fonction non bijective f(.) soit encore exhaustive (image inférieure de l'illustration ci-dessus).


En fait, nous montrerons que si une statistique exhaustive S et fonction d'une autre statistique T, alors T est nécessairement exhaustive. Autrement dit, une statistique exhaustive ne peut être fonction que d'une autre statistique exhaustive.

Nous montrerons que S = f(T) est alors meilleure que T dans le sens suivant :

    * Soit θ* un estimateur sans biais de θ.

    * Alors la blackwellisation de θ* par S  produit un estimateur sans biais de θ ayant une variance inférieure à celle de l'estimateur sans biais obtenu par blackwellisation de θ* par T.

Autrement dit, la fonction f(.) agit comme un "filtre" à travers lequel on fait passer T :

    * Le filtre laisse passer l'intégralité de l'information "utile" à l'estimation de θ,

    * Mais bloque une partie de l'information "inutile" à cette estimation, ce qui rend par la suite la blackwellisation plus efficace.

Statistique exhaustive minimale

Une statistique exhaustive T peut ne plus être améliorable : aucune image de T par une fonction non bijective n'est exhaustive. T est alors dite être une "statistique exhaustive minimale" pour θ.

Statistique complète

Une statistique exhaustive minimale contient aussi peu d'information inutile qu'il est possible tout en préservant sa nature exhaustive. Cette quantité d'information inutile résiduelle n'est pas nécessairement nulle (voir ici). Cependant, dans de nombreux cas, une statistique exhaustive minimale ne contient plus que de l'information utile à l'estimation de θ, à l'exclusion de toute information inutile. La statistique est alors dite complète.

La blackwellisation d'un estimateur sans biais quelconque par une statistique complète donne naissance à l'unique Estimateur Sans Biais de Variance Minimale (ESBVM), ce qui achève la quête de l'estimateur sans biais ultime. Ce résultat est l'objet du Théorème de Lehmann-Scheffé.

Construction d'une statistique exhaustive

La définition d'une statistique exhaustive, ainsi que la condition du paragraphe précédent, permettent de vérifier (d'ailleurs assez laborieusement, voir Tutoriel) qu'une statistique que l'on suppose exhaustive l'est effectivement; mais elle ne permettent pas de construire une statistique exhaustive à partir d'une distribution de probabilité paramétrique.

Il existe deux grandes méthodes de construction de statistiques exhaustives.

Théorème de Factorisation

L'identification d'une statistique exhaustive repose le plus souvent sur le Théorème de Factorisation, qui énonce que si une distribution p(x; θ) est telle que la distribution conjointe L(X; θ) d'un n-échantillon X = {x1, x2, ..., xn} peut être factorisée sous la forme suivante

 

L(X; θ) = g(T(X); θ).h(X)

 

où :

    * g(T(X); θ) est une fonction non négative qui ne dépend que du paramètre θ et de la statistique T(X), mais pas explicitement des observations,

    * h(X) est une fonction non négative qui dépend des observations, mais pas du paramètre θ,

alors la statistique T(X) est exhaustive pour θ.

La réciproque est également vraie : si la statistique T est exhaustive, alors la distribution de l'échantillon peut être factorisée comme ci-dessus.

-----

Le Théorème de Factorisation est une méthode très efficace d'identification de statistiques exhaustives :

    1) A partir de p(x; θ), on calcule la distribution L(X; θ) de l'échantillon.

    2) On essaye de mettre L(X; θ) sous la forme factorisée ci-dessus.

    3) Si l'on y parvient, alors g(T(X); θ) permet d'identifier T(X).

 

L'échec de la factorisation de L(X; θ) peut ne refléter que le manque d'imagination de l'analyste. Dans certains cas, cependant, il est clair que L(X; θ) ne peut pas être factorisée convenablement, et on peut alors affirmer que le paramètre θ n'admet pas de statistique exhaustive.

 

Le Théorème de Factorisation est démontré ci-dessous.

-----

La forme factorisée de L(X; θ) montre bien la séparation entre :

    * g(T(X); θ), la partie de la distribution de l'échantillon utile pour l'estimation de θ, et qui ne dépend de l'échantillon que par l'intermédiaire de la valeur de la statistique exhaustive T,

    * et h(X), une fonction qui, ne dépendant pas de θ, ne joue aucun rôle dans l'estimation de θ.

Famille exponentielle

Le Théorème de Factorisation porte sur la distribution L(X; θ) de l'échantillon, mais pas sur la distribution p(x; θ) elle-même. Il serait pourtant souhaitable que l'on puisse décider sur la seule base de la forme mathématique de p(x; θ) si cette distribution admet ou non une statistique exhaustive pour θ.

Nous montrerons ici qu'une distribution p(x; θ) admet une statistique exhaustive pour θ si et seulement si elle appartient à la famille exponentielle, et donc si elle est de la forme :

 

p(x; θ) = exp[A(x)B(θ) + C(x) + D(θ)]

  

De plus, nous montrerons que T = Σi A(xi) est une statistique exhaustive particulière pour θ.

-----

Ce résultat est parfois connu dans la littérature francophone sous le nom de Théorème de Darmois. 

Statistique exhaustive multidimensionnelle

Le paramètre θ peut être un paramètre vectoriel, c'est à dire un ensemble θ = {θ1, ..., θk } de paramètres scalaires. Par exemple, on peut vouloir estimer simultanément la moyenne et la variance d'une distribution normale N(µ, σ²) lorsque les valeurs de ces deux quantités sont inconnues. On a alors θ = (µ, σ²).

En général, les composantes individuelles θi du paramètre θ n'ont alors pas de statistique exhaustive.

Cependant, il est parfois possible d'identifier une statistique exhaustive multidimensionnelle T = {T1, ...,  Tk} pour le paramètre vectoriel θ = {θ1, ..., θk }. La distribution de l'échantillon conditionnellement à l'ensemble des k valeurs prises par {T1, ...,  Tk} ne dépend alors pas de θ.

Nous illustrerons la notion de statistique exhaustive multidimensionnelle en identifiant, pour une distribution normale dont la moyenne et la variance sont toutes deux inconnues, une statistique exhaustive pour le couple (µ, σ²).

Statistique exhaustive et Estimateur efficace

Nous montrons ici que si une fonction g(θ) du paramètre θ admet un estimateur efficace, alors cet estimateur est une statistique exhaustive pour θ.

La réciproque est bien entendu fausse : une statistique exhaustive n'a aucune raison d'être un estimateur efficace, ni même un estimateur sans biais.

Exhaustivité et Maximum de Vraisemblance

La définition d'une statistique exhaustive repose sur une propriété de la distribution de l'échantillon, et donc de sa vraisemblance. De même, le Théorème de Factorisation identifie une forme analytique particulière de la vraisemblance de l'échantillon lorsqu'il existe une statistique exhaustive. On peut donc s'attendre à ce qu'il existe un lien entre "Exhaustivité" et "Estimateur du Maximum de Vraisemblance".

    * Un Estimateur du Maximum de Vraisemblance n'a aucune raison d'être une statistique exhaustive. Mais nous montrerons que s'il est unique, alors il est fonction de toute statistique exhaustive.

    * De plus, nous montrerons que si l'Estimateur du Maximum de Vraisemblance est lui-même une statistique exhaustive, alors il est une statistique exhaustive minimale.

Théorème de Neyman-Pearson

Le Théorème de Neyman-Pearson identifie la Meilleure Région Critique pour une certaine catégorie de tests impliquant un paramètre d'une distribution. Quand ce paramètre admet une statistique exhaustive, le théorème prend une forme particulièrement simple grâce au Théorème de Factorisation. Il devient alors un outil puissant d'identification de Meilleures Régions Critiques.

_____________________________________________________________________

 

 

 

Tutoriel 1

 

Ce Tutoriel comprend deux parties indépendantes.

-----

Dans la première partie, nous justifions la définition d'une statistique exhaustive (dans le cas discret seulement, mais le résultat est valable en toute généralité).

    * Soit p(x; θ) une distribution de probabilité, et L(X; θ) la distribution conjointe d'un échantillon X de taille n.

    * Soit par ailleurs T une statistique exhaustive pour θ et prenant la valeur t sur l'échantillon x = {x1, x2 , ..., xn}.

Soit x = {x1, x2 , ..., xn} un échantillon tiré de p(x; θ). Nous notons P{X = x} = p(x; θ) la probabilité de cet échantillon.

Soit t = T(x) la valeur de T sur l'échantillon x = {x1, x2 , ..., xn}.

Nous tirons des échantillons Y = {Y1, Y2 , ..., Yn} de la distribution conditionnelle

L(X |T = t )

qui, par définition d'une statistique exhaustive, ne dépend pas de θ.

Nous montrerons que la probabilité pour que Y soit identique à x est égale à P{X = x}.

En d'autres termes, X et Y ont des distributions inconditionnelles identiques.

-----

Dans la deuxième partie, nous établissons une condition nécessaire et suffisante pour qu'une statistique soit exhaustive. La démonstration n'est donnée que pour le cas d'une distribution discrète, mais le résultat est vrai en toute généralité.

    * Soit une distribution de probabilité, et la distribution conjointe L(X; θ) de l'échantillon X.

    * Soit également T une statistique de fonction de probabilité q(x; θ).

Nous allons montrer que T est exhaustive pour θ si et seulement si le rapport :

L(X; θ) / q(T(X); θ)

qui semble dépendre de θ, ne dépend en fait pas de θ.

Nous donnons ensuite deux exemples d'application de ce théorème.

 

 

 

JUSTIFICATION DE LA NOTION D'EXHAUSTIVITE

CONDITION N&S D'EXHAUSTIVITE ET EXEMPLES

Justification de la notion d'exhaustivité

____________________________

Une condition nécessaire et suffisante d'exhaustivité

Premier exemple : Distribution de Bernoulli

Distribution de l'échantillon

Distribution de la statistique

La statistique est exhaustive

Deuxième exemple : Distribution normale

Distribution de l'échantillon

Distribution de la statistique

La statistique est exhaustive

TUTORIEL

 _____________________________________________________

 

 

 

 

Tutoriel 2

 

Dans ce Tutoriel, nous identifions six statistiques exhaustives à partir de la seule définition d'une statistique exhaustive. Plus précisément, nous montrons que :

    * La somme des observations est une statistique exhaustive pour le paramètre p de la distribution de Bernoulli b(p).

    * L'identification d'une statistique exhaustive pour le paramètre p la distribution binomiale B(n, p) est un peu complexe, et requiert la démonstration d'un résultat intermédiaire important.

    * La somme des observations est une statistique exhaustive pour le paramètre λ de la distribution de Poisson P(λ).

    * L'observation la "plus à droite" (la statistique d'ordre de rang n) est une statistique exhaustive pour le paramètre θ de la distribution uniforme U[0, θ].

    * La moyenne empirique est exhaustive pour la moyenne µ de la distribution normale N(µ, σ²).

    * Distribution exponentielle translatée exp(θ - x) :

 

 

Nous montrons que l'observation "la plus à gauche" (statistique d'ordre de rang 1) est une statistique exhaustive pour θ.

 

 

 

EXEMPLES DE STATISTIQUES EXHAUSTIVES

Distribution de Bernoulli

Distribution binomiale

Qu'est-ce qu'un échantillon d'une distribution binomiale ?

Distribution conditionnelle de la distribution binomiale

Distribution conditionnelle de l'échantillon

La statistique est exhaustive

Distribution de Poisson

Distribution uniforme

Distribution normale

Distribution de l'échantillon conditionnellement à sa moyenne

Espérance de la distribution conditionnelle

Matrice de covariance de la distribution conditionelle

Termes de variance

Termes croisés

La moyenne empirique est exhaustive

Distribution exponentielle translatée

TUTORIEL

 

 

La longueur inhabituelle de ce Tutoriel témoigne de la difficulté que l'on rencontre en général à démontrer l'exhaustivité d'une statistique à partir de la seule définition d'une statistique exhaustive. Par exemple, le cas de la distribution normale fait appel à des résultats avancés relatifs à la distribution normale multivariée (voir ici) ainsi qu'au calcul d'espérances, de variances et de covariances conditionnelles, et requiert un certain effort de la part du lecteur.

Celui-ci sera alors convaincu du grand intérêt que présente le Théorème de Factorisation, que nous abordons maintenant.

_______________________________________________________

 

 

 

Tutoriel 3

 

Nous démontrons ici le Théorème de Factorisation :

    1) D'abord dans le cas d'une distribution discrète,

    2) Puis dans le cas d'une distribution à densité. La démonstration générale, difficile, se situe au-delà des limites de ce Glossaire, et nous devrons imposer quelques conditions restrictives qui sont heureusement satisfaites dans la plupart des situations rencontrées dans la pratique.

-----

Nous démontrons ensuite deux conséquences immédiates du Théorème de Factorisation :

    * La transformée bijective d'une statistique exhaustive est exhaustive.

    * Une statistique exhaustive pour θ l'est aussi pour les transformés bijectifs de θ.

-----

Nous concluons en montrant que si une une statistique exhaustive S est fonction d'une autre statistique T, alors cette autre statistique est elle aussi exhaustive.

Nous esquissons enfin la démonstration du fait que la blackwellisation d'un estimateur sans biais θ* par S conduit alors à un nouvel estimateur sans biais de variance plus faible que celle de l'estimateur obtenu par la blackwellisation de θ* par T. La démonstration, formellement simple, fait malheureusement appel à des propriétés difficiles de l'espérance conditionnelle, qui sont enoncées sans démonstration.


 

 

THEOREME DE FACTORISATION

Le Théorème de Factorisation (cas discret)

La factorisation est nécessaire

La factorisation est suffisante

Distribution de la statistique exhaustive

Théorème de Factorisation (distributions à densité)

Les conditions restrictives

La factorisation est nécessaire

La factorisation est suffisante

Exhaustivité et fonctions

Conservation de l'exhaustivité par bijection

Exhaustivité pour une fonction bijective du paramètre

Statistique exhaustive S fonction d'une statistique T

T est exhaustive

S est meilleure que T

 

TUTORIEL

 _____________________________________________________

 

 

Tutoriel 4

 

Nous utilisons maintenant le Théorème de Factorisation pour identifier des statistiques exhaustives de quelques distributions classiques. Nous constaterons que le plus souvent, le recours au Théorème de Factorisation rend cette identification plus facile que l'utilisation de la seule définition d'une statistique exhaustive.

Nous rencontrerons des exemples de statistiques bidimensionnelles qui sont exhaustives pour une paire de paramètres, alors même que chacun des paramètres de la paire, pris individuellement, n'a pas de statistique exhaustive.

 

 

 

EXEMPLES D'APPLICATIONS

DU THEOREME DE FACTORISATION

Distribution de Bernoulli

Distribution uniforme [0, θ]

Distribution uniforme [θ, θ + 1]

Distribution de Poisson

Distribution normale

Moyenne

Première méthode

Deuxième méthode

Variance

La statistique

Distribution de la statistique

Distribution de l'échantillon

La statistique est exhaustive

Moyenne et variance

Distribution exponentielle

Distribution Gamma

Paramètre de forme

Paramètre de dispersion

Paramètres de forme et de dispersion

Distribution Beta

TUTORIEL

____________________________________________

 

 

Tutoriel 5

 

Dans ce court Tutoriel, nous montrons que :

    * Si un Estimateur du Maximum de Vraisemblance est unique, alors il est fonction de toute statistique exhaustive.

    * Si un Estimateur du Maximum de Vraisemblance est unique et est une statistique exhaustive, alors il est une statistique exhaustive minimale.

 

EXHAUSTIVITE ET MAXIMUM DE VRAISEMBLANCE

Estimateur par MV et statistique exhaustive

Si l'unique EMV est exhaustif, il est exhaustif minimal

TUTORIEL

 

_______________________________________________________

 

Voir aussi :

Famille exponentielle

Maximum de Vraisemblance

Théorème de Neyman-Pearson

Théorème de Rao-Blackwell

Statistique exhaustive minimale

Statistique exhaustive complète

Téléchargez ce Glossaire