Libre (Statistique)
Cette illustration représente la distribution uniforme U[θ, θ + 1], ainsi qu'un échantillon {x1, x2, ..., xn} tiré de cette distribution. Il est évident, et nous démontrerons, que la distribution de la v.a. X = X(n) - X(1) (l'écart entre la plus grande et la plus petite observation) ne dépend pas de θ : changer la valeur de θ revient à translater en bloc la distribution et l'échantillon sans affecter la différence x(2) - x(1), et donc la distribution de x.

Tout aussi clairement, la distribution de la différence entre deux statistiques d'ordre de rangs donnés ne dépend pas non plus de la valeur de θ.
Nous venons donc de mettre en évidence une famille de statistiques de la distribution U[θ, θ + 1] dont les distributions ne dépendent pas de la valeur du paramètre θ.
Ce concept se généralise et se formalise dans la définition suivante :
|
Une statistique de la distribution p(x, θ) est dite libre si sa distribution ne dépend pas de la valeur du paramètre θ. |
Un famille "de position" est une famille de distributions telle que le seul rôle du paramètre θ est de définir la position horizontale de la distribution sur l'axe x. La famille U[θ, θ + 1] est clairement une famille de postion. La forme générale de la distribution de probabilité d'une famille de position est f(x - θ).
Nous établirons que les statistiques suivantes d'une famille de position sont des statistiques libres :
* Si l'on tire deux observations indépendantes d'une même distribution appartenant à une famille de position, la différence de ces deux observations est une statistique libre.
* La différence de deux statistiques d'ordre de rangs donnés d'une famille de position est libre.
* La variance empirique est une statistique libre de toute famille de position.
* Pour tout i, la différence entre l'observation n°i et la moyenne empirique est une statistique libre.
* Pour tout i, la différence entre la statistique d'ordre de rang i et la moyenne empirique est une statistique libre.
Si le paramètre θ d'une famille de distributions p(x, θ) ne sert qu'à définir le "degré d'étirement horizontal" d'une distribution de référence, on dit que la famille de distributions est une "famille d'échelle". La forme générale de la fonction de distribution de probabilité d'une famille d'échelle est f(x/θ). Un exemple typique est fourni par la distribution exponentielle Exp(θ) dont la fdp est y = (1/θ)e-x/θ.
Nous établirons que les statistiques suivantes d'une famille d'échelle sont des statistiques libres :
* Si l'on tire deux observations indépendantes d'une même distribution appartenant à une famille d'échelle, le rapport de ces deux observations est une statistique libre. Nous en déduirons que si une statistique Z n'est fonction que des rapports X1/Xn, X2 /Xn, ..., Xn - 1/Xn :
Z = f(X1/Xn, X2 /Xn, ..., Xn - 1/Xn)
alors Z est une statistique libre. Bien entendu, l'indice i peut être remplacé par tout autre indice.
* Le rapport de deux statistiques d'ordre de rangs donnés d'une famille d'échelle est libre.
* Pour tout i, le rapport entre l'observation n°i et la moyenne empirique est une statistique libre.
* Pour tout i, le rapport entre la statistique d'ordre de rang i et la moyenne empirique est une statistique libre.
Les exemples ci-dessus ne sont pas les seules statistiques libres possibles. Nous démontrerons la condition suffisante générale suivante pour qu'une statistique soit libre.
|
* Soit S une statistique exhaustive pour θ dont le support ne dépend pas de θ. * Soit par ailleurs une statistique T. Si S et T sont indépendantes, alors T est une statistique libre. |
La condition sur le support de la statistique exhaustive exclut les diverses familles de distributions uniformes du champ d'application de ce théorème.
La réciproque est fausse. Mais elle est vraie si l'on impose à la statistique exhaustive S d'être en plus complète. C'est l'objet du Théorème de Basu, énoncé ci-dessous.
Une statistique exhaustive minimale peut encore contenir une certaine quantité d' "information inutile" à l'estimation de θ, c'est à dire peut ne pas être complète. Il est alors impossible d'éliminer ce résidu d'information inutile sans détruire la nature exhaustive de la statistique.
Dans certains cas, il est possible de mettre en évidence cette information, qui apparaît alors comme une statistique libre "contenue" dans la statistique exhaustive minimale. Par exemple, la statistique {X(1), X(n)} est exhaustive minimale mais non complète pour la distribution uniforme U[θ, θ + 1]. L'image d'une statistique exhaustive minimale par une fonction bijective étant également exhaustive minimale, la statistique {X(1) - X(n), X(1) + X(n)} est exhaustive minimale pour U[θ, θ + 1]. Mais nous venons de voir que (X(1) - X(n)) est libre. La statistique {X(1), X(n)} "contient" donc une statistique libre, ce qui l'empêche d'être complète.
Pourquoi s'intéresser à des statistiques dont les distributions ne dépendent pas de θ, et semblent donc n'apporter aucune information sur la valeur de θ, alors même que l'estimation de la valeur d'un paramètre est une activité centrale de la Statistique ?
Il est vrai que lorsqu'on dispose d'une statistique complète, les statistiques libres sont totalement superflues. Ceci est une conséquence du Théorème de Basu (démontré ci-dessous) :
|
* Si S est une statistique complète pour le paramètre θ, * Et si T est une statistique libre pour ce même paramètre, * Alors S et T sont deux v.a. indépendantes. |
En d'autres termes, une statistique exhaustive complète est indépendante de toute statistique libre.
Le Théorème de Basu vient confirmer l'idée selon laquelle :
* Une statistique exhaustive et complète contient toute l'information nécessaire à l'estimation de θ, à l'exclusion de toute information inutile (et donc nuisible),
* Alors qu'une statistique libre, à l'opposé, ne contient aucune information pertinente concernant la valeur de θ.
Cette affirmation doit cependant être tempérée par les considérations du paragraphe suivant lorsqu'il n'existe pas de statistique complète.
Soit T une statistique exhaustive minimale, mais non complète. Celle-ci contient alors, comme nous venons de le voir, une "partie libre" dont la valeur peut apporter une information sur la précision de l'estimation effectuée à l'aide d'un estimateur sans biais.
Prenons par exemple la distribution uniforme U[θ - 1, θ + 1] dont est tiré un échantillon X = {x1, x2, ..., xn}. On montre facilement que la demi-somme des deux observations extrêmes, soit (X(n) - X(1))/2, est un estimateur sans biais de θ. La statistique X(n) - X(1) est libre, mais sa valeur apporte pourtant une information sur la confiance que l'on peut avoir en l'estimation. Car si x(n) - x(1) est proche de 2 (l'étendue du support de la distribution), alors x(1) doit être proche de θ - 1, et x(n) doit être proche de θ + 1, et leur demi-somme doit être proche de θ.
Ainsi, bien que libre, la statistique X(n) - X(1) apporte clairement de l'information sur la qualité de l'estimation de θ. Ceci peut être relié au fait qu'il n'existe pas de statistique complète pour θ.
-----
Bien que la question du rôle des statistiques libres en estimation ait été soulevée dès 1925, elle a, à ce jour, donné naissance à plus de controverses que de résultats significatifs, et nous ne poursuivrons pas plus avant dans cette voie.
__________________________________________________________________
|
Tutoriel |
Dans ce Tutoriel, nous commençons par donner un exemple simple de statistique libre de la distribution U[θ, θ + 1].
Nous généralisons ensuite ce résultat aux familles de position en donnant quatre exemples de familles de statistiques libres.
Des résultats similaires sont ensuite obtenus pour les familles d'échelle.
Ces exemples ne résument pas à eux seuls le concept de statistique libre, et nous démontrons ensuite une condition suffisante très générale pour qu'une statistique soit libre.
Nous abordons enfin le Théorème de Basu, qui énonce qu'une statistique exhaustive complète est indépendante de toute statistique libre.
Nous concluons en donnant trois exemples d'application de ce théorème :
1) Le premier porte sur la non-complétude de la statistique exhaustive minimale de la distribution U[θ, θ + 1], un résultat déjà obtenu ici.
2) Le second décrit une méthode particulièrement sophistiquée (bien que simple) pour établir l'indépendance de la moyenne empirique et de la variance empirique de la distribution normale, un résultat classique déjà obtenu ici par des méthodes élémentaires.
3) Le troisième est une façon élégante de calculer l'espérance du rapport d'une observation et de la moyenne empirique pour la distribution exponentielle Exp(λ).
La seconde démonstration du Théorème
de Basu fait appel à un résultat de Théorie des Probabilités énoncé
sans démonstration.
STATISTIQUES LIBRES
THEOREME DE BASU
|
Etendue de la distribution uniforme U[θ, θ + 1] Statistiques libres d'une famille de position Différence de deux observations indépendantes Différence de deux statistiques d'ordre Ecarts à la moyenne empirique Observation et moyenne empirique Statistique d'ordre et moyenne empirique Variance empirique Statistiques libres d'une famille d'échelle Rapport de deux observations indépendantes Rapport de deux statistiques d'ordre Rapport à la moyenne empirique Observation et moyenne empirique Statistique d'ordre et moyenne empirique Une condition suffisante pour qu'une statistique soit libre Théorème de Basu Première démonstration Deuxième démonstration Exemples d'application du Théorème de Basu Non complétude d'une statistique exhaustive minimale Indépendance de la moyenne et de la variance empiriques de la distribution normale La variance est connue La variance est inconnue Une espérance dans le contexte de la distribution exponentielle |
||
|
TUTORIEL |
||
______________________________________________________
Voir aussi :