Exhaustive (Statistique)
Soit p(x; θ) une distribution de probabilité connue à l'exception de la valeur du paramètre θ.
Soit également x = {x1, x2, ..., xn } un échantillon de taille n issu de cette distribution. Toute l'information disponible pour l'estimation de la valeur de θ est contenue dans cet échantillon.
Pour estimer θ, nous construisons une statistique (une fonction qui ne dépend que des observations et pas de θ) ayant de "bonnes" propriétés. Par exemple, nous ferons en sorte que l'espérance de cette statistique soit égale à θ : nous aurons alors construit un estimateur sans biais de θ.
Cependant, nous pouvons légitimement être inquiets de ce que, partant d'un ensemble de n valeurs, nous n'ayons plus maintenant qu'une seule valeur (l'estimation de θ). Cette réduction provoque certainement une perte d'information car la connaissance de la seule estimation ne permet pas de remonter à l'échantillon tout entier.
Il existe en Théorie de l'Estimation une ligne de pensée informelle mais très commode pour guider de nombreux raisonnements, et selon laquelle un échantillon contient :
* De l'information utile pour l'estimation de θ,
* Le reste de l'information disponible dans l'échantillon étant inutile pour cette estimation (bien que pouvant être utile pour d'autres applications).
On peut donc craindre que dans une statistique quelconque (et en particulier, dans un estimateur de θ) on ne retrouve qu'une partie de l'information utile à l'estimation de θ (ainsi qu'une certaine quantité d'information inutile) et en général, ceci est vrai.
Il est cependant remarquable dans sous certaines conditions, la création d'une statistique ne rejettera que de l'information "inutile" tout en préservant intégralement l'information "utile" à l'estimation de θ. Lorsque ceci est possible, on dit que la statistique ainsi obtenue est une statistique exhaustive pour θ.

A la page suivante, nous décrivons une expérience de pensée qui permet de donner à ce concept intuitif mais vague un contenu opérationnel qui se traduira par la définition formelle que nous donnons au paragraphe suivant.
Soit p(x, θ) une distribution de probabilité.
Toute la Théorie de l'Estimation repose sur la connaissance de la distribution de probabilité de l'échantillon X = {X1, X2, ..., Xn }, que nous noterons L(X; θ). C'est à partir de cette distribution que l'on calcule (lorsque cela est possible) la distribution d'une statistique T(X).
Nous noterons Lθ (X |T = t) la distribution de l'échantillon conditionnellement à la valeur t de la statistique T. En termes intuitifs (et impropres) :
* Répétons à l'infini des tirages d'échantillons de taille n de la distribution p(x, θ) et ne retenons que ceux pour lesquels T = t.
* Ces échantillons sont distribués comme Lθ (X |T = t).
Nous donnons maintenant la définition formelle d'une statistique exhaustive :
|
Une statistique T est dit exhaustive pour le paramètre θ si la distribution de l'échantillon conditionnellement à la valeur de T ne dépend pas de θ. |
En d'autres termes, nous pouvons supprimer l'indice θ de l'expression Lθ (X |T = t), qui sécrira alors simplement L(X |T = t).
L'expérience de pensée décrite à la page suivante explique comment la notion intuitive de "statistique qui contient toute l'information relative à θ" se traduit par cette définition quelque peu abstraite.
-----
Nous donnons également à la page suivante une interprétation géométrique de la notion d'exhaustivité qui peut apporter une aide visuelle à la compréhension de cette notion.
Remarques :
1) Si T est exhaustive, la distribution de
l'échantillon X conditionnellement à la valeur de
T ne dépend pas de θ. Il en est donc de même de toute
fonction f(X) de l'échantillon, c'est à dire
de toute statistique. Donc si T est exhaustive, et si S est une
statistique quelconque, la distribution de S conditionnellement à
T ne dépend pas de θ. Cette remarque est très utile
en pratique.
2) Nous montrerons
que si une statistique T est exhaustive pour θ, alors elle l'est
également pour toute fonction bijective de θ.
La définition d'une statistique exhaustive porte sur la distribution conditionnelle de l'échantillon.
Il existe une condition nécessaire et suffisante d'exhaustivité d'une statistique T qui porte sur la relation entre :
* La distribution (inconditionnelle) de l'échantillon,
* Et la distribution de la statistique T.
-----
Soit une distribution de probabilité, et la distribution conjointe L(X; θ) de l'échantillon X.
Soit également T une statistique de distribution de probabilité q(x; θ).
Nous montrerons que T est exhaustive pour θ si et seulement si le rapport :
L (X; θ) / q(T(X); θ)
qui semble dépendre de θ, ne dépend en fait pas de θ.
Le concept de statistique exhaustive est un élément essentiel de la recherche d'estimateurs sans biais de faible variance du paramètre θ jusqu'à la découverte du meilleur d'entre-eux : l'unique Estimateur Sans Biais de Variance Minimale (ESBVM), lorsqu'il existe. Cette découverte suit un long chemin, qui peut se résumer ainsi :
Une statistique exhaustive n'est pas un estimateur, mais elle permet d'améliorer (réduire la variance) d'un estimateur sans biais déjà disponible.
Soit :
* θ* un estimateur sans biais de θ.
* T une statistique exhaustive pour θ.
Alors le Théorème de Rao-Blackwell énonce que
E[θ* | T]
est également un estimateur sans biais de θ, et au moins aussi bon que θ* (variance inférieure ou égale à celle de θ*).
La création d'un estimateur sans biais "amélioré" par application du Théorème de Rao-Blackwell s'appelle la "blackwellistation" de l'estimateur initial par une statistique exhaustive.
L'image d'une statistique exhaustive par une fonction bijective est encore exhaustive. Mais en général, l'image d'une statistique exhaustive par une fonction quelconque n'est pas exhaustive.
Cependant, il peut arriver que l'image S = f(T) d'une statistique exhaustive T par une fonction non bijective f(.) soit encore exhaustive (image inférieure de l'illustration ci-dessus).
En fait, nous montrerons
que si une statistique exhaustive S et fonction d'une autre statistique
T, alors T est nécessairement exhaustive. Autrement dit,
une statistique exhaustive ne peut être fonction que d'une autre statistique
exhaustive.
Nous montrerons que S = f(T) est alors meilleure que T dans le sens suivant :
* Soit θ* un estimateur sans biais de θ.
* Alors la blackwellisation de θ* par S produit un estimateur sans biais de θ ayant une variance inférieure à celle de l'estimateur sans biais obtenu par blackwellisation de θ* par T.
Autrement dit, la fonction f(.) agit comme un "filtre" à travers lequel on fait passer T :
* Le filtre laisse passer l'intégralité de l'information "utile" à l'estimation de θ,
* Mais bloque une partie de l'information "inutile" à cette estimation, ce qui rend par la suite la blackwellisation plus efficace.
Une statistique exhaustive T peut ne plus être améliorable : aucune image de T par une fonction non bijective n'est exhaustive. T est alors dite être une "statistique exhaustive minimale" pour θ.
Une statistique exhaustive minimale contient aussi peu d'information inutile qu'il est possible tout en préservant sa nature exhaustive. Cette quantité d'information inutile résiduelle n'est pas nécessairement nulle (voir ici). Cependant, dans de nombreux cas, une statistique exhaustive minimale ne contient plus que de l'information utile à l'estimation de θ, à l'exclusion de toute information inutile. La statistique est alors dite complète.
La blackwellisation d'un estimateur sans biais quelconque par une statistique complète donne naissance à l'unique Estimateur Sans Biais de Variance Minimale (ESBVM), ce qui achève la quête de l'estimateur sans biais ultime. Ce résultat est l'objet du Théorème de Lehmann-Scheffé.
La définition d'une statistique exhaustive, ainsi que la condition du paragraphe précédent, permettent de vérifier (d'ailleurs assez laborieusement, voir Tutoriel) qu'une statistique que l'on suppose exhaustive l'est effectivement; mais elle ne permettent pas de construire une statistique exhaustive à partir d'une distribution de probabilité paramétrique.
Il existe deux grandes méthodes de construction de statistiques exhaustives.
L'identification d'une statistique exhaustive repose le plus souvent sur le Théorème de Factorisation, qui énonce que si une distribution p(x; θ) est telle que la distribution conjointe L(X; θ) d'un n-échantillon X = {x1, x2, ..., xn} peut être factorisée sous la forme suivante
|
L(X; θ) = g(T(X); θ).h(X) |
où :
* g(T(X); θ) est une fonction non négative qui ne dépend que du paramètre θ et de la statistique T(X), mais pas explicitement des observations,
* h(X) est une fonction non négative qui dépend des observations, mais pas du paramètre θ,
alors la statistique T(X) est exhaustive pour θ.
La réciproque est également vraie : si la statistique T est exhaustive, alors la distribution de l'échantillon peut être factorisée comme ci-dessus.
-----
Le Théorème de Factorisation est une méthode très efficace d'identification de statistiques exhaustives :
1) A partir de p(x; θ), on calcule la distribution L(X; θ) de l'échantillon.
2) On essaye de mettre L(X; θ) sous la forme factorisée ci-dessus.
3) Si l'on y parvient, alors g(T(X); θ) permet d'identifier T(X).
L'échec de la factorisation de L(X; θ) peut ne refléter que le manque d'imagination de l'analyste. Dans certains cas, cependant, il est clair que L(X; θ) ne peut pas être factorisée convenablement, et on peut alors affirmer que le paramètre θ n'admet pas de statistique exhaustive.
Le Théorème de Factorisation est démontré ci-dessous.
-----
La forme factorisée de L(X; θ) montre bien la séparation entre :
* g(T(X); θ), la partie de la distribution de l'échantillon utile pour l'estimation de θ, et qui ne dépend de l'échantillon que par l'intermédiaire de la valeur de la statistique exhaustive T,
* et h(X), une fonction qui, ne dépendant pas de θ, ne joue aucun rôle dans l'estimation de θ.
Le Théorème de Factorisation porte sur la distribution L(X; θ) de l'échantillon, mais pas sur la distribution p(x; θ) elle-même. Il serait pourtant souhaitable que l'on puisse décider sur la seule base de la forme mathématique de p(x; θ) si cette distribution admet ou non une statistique exhaustive pour θ.
Nous montrerons ici qu'une distribution p(x; θ) admet une statistique exhaustive pour θ si et seulement si elle appartient à la famille exponentielle, et donc si elle est de la forme :
|
p(x; θ) = exp[A(x)B(θ) + C(x) + D(θ)] |
De plus, nous montrerons que T = Σi A(xi) est une statistique exhaustive particulière pour θ.
-----
Ce résultat est parfois connu dans la littérature francophone sous le nom de Théorème de Darmois.
Le paramètre θ peut être un paramètre vectoriel, c'est à dire un ensemble θ = {θ1, ..., θk } de paramètres scalaires. Par exemple, on peut vouloir estimer simultanément la moyenne et la variance d'une distribution normale N(µ, σ²) lorsque les valeurs de ces deux quantités sont inconnues. On a alors θ = (µ, σ²).
En général, les composantes individuelles θi du paramètre θ n'ont alors pas de statistique exhaustive.
Cependant, il est parfois possible d'identifier une statistique exhaustive multidimensionnelle T = {T1, ..., Tk} pour le paramètre vectoriel θ = {θ1, ..., θk }. La distribution de l'échantillon conditionnellement à l'ensemble des k valeurs prises par {T1, ..., Tk} ne dépend alors pas de θ.
Nous illustrerons la notion de statistique exhaustive multidimensionnelle en identifiant, pour une distribution normale dont la moyenne et la variance sont toutes deux inconnues, une statistique exhaustive pour le couple (µ, σ²).
Nous montrons ici que si une fonction g(θ) du paramètre θ admet un estimateur efficace, alors cet estimateur est une statistique exhaustive pour θ.
La réciproque est bien entendu fausse : une statistique exhaustive n'a aucune raison d'être un estimateur efficace, ni même un estimateur sans biais.
La définition d'une statistique exhaustive repose sur une propriété de la distribution de l'échantillon, et donc de sa vraisemblance. De même, le Théorème de Factorisation identifie une forme analytique particulière de la vraisemblance de l'échantillon lorsqu'il existe une statistique exhaustive. On peut donc s'attendre à ce qu'il existe un lien entre "Exhaustivité" et "Estimateur du Maximum de Vraisemblance".
* Un Estimateur du Maximum de Vraisemblance n'a aucune raison d'être une statistique exhaustive. Mais nous montrerons que s'il est unique, alors il est fonction de toute statistique exhaustive.
* De plus, nous montrerons que si l'Estimateur du Maximum de Vraisemblance est lui-même une statistique exhaustive, alors il est une statistique exhaustive minimale.
Le Théorème de Neyman-Pearson identifie la Meilleure Région Critique pour une certaine catégorie de tests impliquant un paramètre d'une distribution. Quand ce paramètre admet une statistique exhaustive, le théorème prend une forme particulièrement simple grâce au Théorème de Factorisation. Il devient alors un outil puissant d'identification de Meilleures Régions Critiques.
_____________________________________________________________________
|
Tutoriel 1 |
Ce Tutoriel comprend deux parties indépendantes.
-----
Dans la première partie, nous justifions la définition d'une statistique exhaustive (dans le cas discret seulement, mais le résultat est valable en toute généralité).
* Soit p(x; θ) une distribution de probabilité, et L(X; θ) la distribution conjointe d'un échantillon X de taille n.
* Soit par ailleurs T une statistique exhaustive pour θ et prenant la valeur t sur l'échantillon x = {x1, x2 , ..., xn}.
Soit x = {x1, x2 , ..., xn} un échantillon tiré de p(x; θ). Nous notons P{X = x} = p(x; θ) la probabilité de cet échantillon.
Soit t = T(x) la valeur de T sur l'échantillon x = {x1, x2 , ..., xn}.
Nous tirons des échantillons Y = {Y1, Y2 , ..., Yn} de la distribution conditionnelle
L(X |T = t )
qui, par définition d'une statistique exhaustive, ne dépend pas de θ.
Nous montrerons que la probabilité pour que Y soit identique à x est égale à P{X = x}.
En d'autres termes, X et Y ont des distributions inconditionnelles identiques.
-----
Dans la deuxième partie, nous établissons une condition nécessaire et suffisante pour qu'une statistique soit exhaustive. La démonstration n'est donnée que pour le cas d'une distribution discrète, mais le résultat est vrai en toute généralité.
* Soit une distribution de probabilité, et la distribution conjointe L(X; θ) de l'échantillon X.
* Soit également T une statistique de fonction de probabilité q(x; θ).
Nous allons montrer que T est exhaustive pour θ si et seulement si le rapport :
L(X; θ) / q(T(X); θ)
qui semble dépendre de θ, ne dépend en fait pas de θ.
Nous donnons ensuite deux exemples d'application de ce théorème.
JUSTIFICATION DE LA NOTION D'EXHAUSTIVITE
CONDITION N&S D'EXHAUSTIVITE ET EXEMPLES
|
Justification de la notion d'exhaustivité ____________________________ Une condition nécessaire et suffisante d'exhaustivité Premier exemple : Distribution de Bernoulli Distribution de l'échantillon Distribution de la statistique La statistique est exhaustive Deuxième exemple : Distribution normale Distribution de l'échantillon Distribution de la statistique La statistique est exhaustive |
||
|
TUTORIEL |
||
_____________________________________________________
|
Tutoriel 2 |
Dans ce Tutoriel, nous identifions six statistiques exhaustives à partir de la seule définition d'une statistique exhaustive. Plus précisément, nous montrons que :
* La somme des observations est une statistique exhaustive pour le paramètre p de la distribution de Bernoulli b(p).
* L'identification d'une statistique exhaustive pour le paramètre p la distribution binomiale B(n, p) est un peu complexe, et requiert la démonstration d'un résultat intermédiaire important.
* La somme des observations est une statistique exhaustive pour le paramètre λ de la distribution de Poisson P(λ).
* L'observation la "plus à droite" (la statistique d'ordre de rang n) est une statistique exhaustive pour le paramètre θ de la distribution uniforme U[0, θ].
* La moyenne empirique est exhaustive pour la moyenne µ de la distribution normale N(µ, σ²).
* Distribution exponentielle translatée exp(θ - x) :

Nous montrons que l'observation "la plus à gauche" (statistique d'ordre de rang 1) est une statistique exhaustive pour θ.
EXEMPLES DE STATISTIQUES EXHAUSTIVES
|
Distribution de Bernoulli Distribution binomiale Qu'est-ce qu'un échantillon d'une distribution binomiale ? Distribution conditionnelle de la distribution binomiale Distribution conditionnelle de l'échantillon La statistique est exhaustive Distribution de Poisson Distribution uniforme Distribution normale Distribution de l'échantillon conditionnellement à sa moyenne Espérance de la distribution conditionnelle Matrice de covariance de la distribution conditionelle Termes de variance Termes croisés La moyenne empirique est exhaustive Distribution exponentielle translatée |
||
|
TUTORIEL |
||
La longueur inhabituelle de ce Tutoriel témoigne de la difficulté que l'on rencontre en général à démontrer l'exhaustivité d'une statistique à partir de la seule définition d'une statistique exhaustive. Par exemple, le cas de la distribution normale fait appel à des résultats avancés relatifs à la distribution normale multivariée (voir ici) ainsi qu'au calcul d'espérances, de variances et de covariances conditionnelles, et requiert un certain effort de la part du lecteur.
Celui-ci sera alors convaincu du grand intérêt que présente le Théorème de Factorisation, que nous abordons maintenant.
_______________________________________________________
|
Tutoriel 3 |
Nous démontrons ici le Théorème de Factorisation :
1) D'abord dans le cas d'une distribution discrète,
2) Puis dans le cas d'une distribution à densité. La démonstration générale, difficile, se situe au-delà des limites de ce Glossaire, et nous devrons imposer quelques conditions restrictives qui sont heureusement satisfaites dans la plupart des situations rencontrées dans la pratique.
-----
Nous démontrons ensuite deux conséquences immédiates du Théorème de Factorisation :
* La transformée bijective d'une statistique exhaustive est exhaustive.
* Une statistique exhaustive pour θ l'est aussi pour les transformés bijectifs de θ.
-----
Nous concluons en montrant que si une une statistique exhaustive S est fonction d'une autre statistique T, alors cette autre statistique est elle aussi exhaustive.
Nous esquissons enfin la démonstration du fait que la blackwellisation d'un estimateur sans biais θ* par S conduit alors à un nouvel estimateur sans biais de variance plus faible que celle de l'estimateur obtenu par la blackwellisation de θ* par T. La démonstration, formellement simple, fait malheureusement appel à des propriétés difficiles de l'espérance conditionnelle, qui sont enoncées sans démonstration.
THEOREME DE FACTORISATION
|
Le Théorème de Factorisation (cas discret) La factorisation est nécessaire La factorisation est suffisante Distribution de la statistique exhaustive Théorème de Factorisation (distributions à densité) Les conditions restrictives La factorisation est nécessaire La factorisation est suffisante Exhaustivité et fonctions Conservation de l'exhaustivité par bijection Exhaustivité pour une fonction bijective du paramètre Statistique exhaustive S fonction d'une statistique T T est exhaustive S est meilleure que T
|
||
|
TUTORIEL |
||
_____________________________________________________
|
Tutoriel 4 |
Nous utilisons maintenant le Théorème de Factorisation pour identifier des statistiques exhaustives de quelques distributions classiques. Nous constaterons que le plus souvent, le recours au Théorème de Factorisation rend cette identification plus facile que l'utilisation de la seule définition d'une statistique exhaustive.
Nous rencontrerons des exemples de statistiques bidimensionnelles qui sont exhaustives pour une paire de paramètres, alors même que chacun des paramètres de la paire, pris individuellement, n'a pas de statistique exhaustive.
EXEMPLES D'APPLICATIONS
DU THEOREME DE FACTORISATION
|
Distribution de Bernoulli Distribution uniforme [0, θ] Distribution uniforme [θ, θ + 1] Distribution de Poisson Distribution normale Moyenne Première méthode Deuxième méthode Variance La statistique Distribution de la statistique Distribution de l'échantillon La statistique est exhaustive Moyenne et variance Distribution exponentielle Distribution Gamma Paramètre de forme Paramètre de dispersion Paramètres de forme et de dispersion Distribution Beta |
||
|
TUTORIEL |
||
____________________________________________
|
Tutoriel 5 |
Dans ce court Tutoriel, nous montrons que :
* Si un Estimateur du Maximum de Vraisemblance est unique, alors il est fonction de toute statistique exhaustive.
* Si un Estimateur du Maximum de Vraisemblance est unique et est une statistique exhaustive, alors il est une statistique exhaustive minimale.
EXHAUSTIVITE ET MAXIMUM DE VRAISEMBLANCE
|
Estimateur par MV et statistique exhaustive Si l'unique EMV est exhaustif, il est exhaustif minimal |
||
|
TUTORIEL |
||
_______________________________________________________
Voir aussi :
|