|
Animation interactive |
Répartition (Fonction de)
Soit X une variable aléatoire numérique. Elle est complètement décrite par la valeur de la probabilité pour qu'une réalisation de cette variable soit inférieure à x pour tout x. Cette probabilité est notée F(x) :
F(x) = P{X < x}
F(x) s'appelle la fonction de répartition de la variable X. C'est la proportion de la population considérée dont la valeur est inférieure à x.
La fonction de répartition est clairement une fonction monotone croissante (ou plus précisément "non décroissante") dont les valeurs vont de 0 à 1.
-----
Les deux évènements :
* X < x et
* X
x
sont mutuellement exclusifs. Donc :
P{X < x} + P{X
x}
= 1
et
P{X
x}
= 1 - F(x)
Plus généralement, pour toute paire de nombres a
et b avec a
b,
nous avons :
|
P{a |
Une fonction de répartition n'est pas obligatoirement continue. Par exemple, la fonction de répartition d'une v.a. qui ne peut prendre qu'un nombre fini de valeurs est une fonction "en escalier" :

Nous avons alors :
F(xi ) = Sj P{X = xj } j = 1, 2, ..., i
-----
La même chose est vraie pour des variables discrètes pouvant prendre un nombre infini de valeurs (comme une variable de Poisson), et le nombre de marches est alors infini.
Rappelons
qu'une v.a. est dite avoir une densité de probabilité p(x) si,
pour toute paire de nombres a et b avec a
b,
nous avons :

La fonction de répartition est alors non seulement continue, mais également dérivable et sa dérivée F '(x) est égale à p(x). Nous avons alors :
|
|
La relation entre la fonction de répartition et la fonction de densité de probabilité est illustrée par les images supérieure et inférieure ci-dessous :
Vous trouverez ici une animation interactive illustrant cette relation.
L'illustration ci-dessous représente :
* Une densité de probabilité,
* Et un échantillon de n observations tirées de cette densité.
Les observations sont triées par ordre de valeurs croissantes.
La fonction de répartition empirique Fn(x) est définie comme suit (image inférieure de l'illustration ci-dessus). C'est une fonction en escalier :
* Egale à 0 pour x < x1,
* Egale à 1 pour x
xn,
* Constante sur l'intervalle semi-ouvert [xi , xi + 1[,
* Et telle que la hauteur de chacune des marches soit 1/n.
Cette fonction ne doit pas être confondue avec la fonction
de répartition d'une v.a. discrète comme ci-dessus.
Le but ultime de la Statistique est de remonter de l'échantillon à la distribution qui lui a donné naissance. Son triomphe est d'être parvenue à donner de ce but, déterministe et inaccessible, des versions partielles et probabilistes (essentiellement estimation et tests).
Ce succès est rendu possible par le fait que l'échantillon est une image incomplète mais probablement assez fidèle de la distribution (que nous supposons continue) :
* Il y a plus d'observations dans les régions de forte densité de probabilité,
* Et moins dans les régions de faible densité de probabilité,
cette image étant quelque peu distordue de façon imprévisible par le caractère aléatoire du tirage des observations.
La fonction de répartition empirique est un excellent instrument de mesure de la fidélité de cette représentation : là où les observations sont rapprochées, cette fonction croît rapidement, ce qui est exactement ce que l'on attend de la fonction de répartition réelle. En effet, dans les régions où cette fonction croît rapidement, la densité de probabilité (sa dérivée) est élevée, ce qui est propice à la concentration des observations.
-----
Ces remarques intuitives reçoivent une justification sous la forme du Théorème Fondamental de la Statistique, qui s'énonce ainsi :
La fonction de répartition empirique Fn(x) converge vers la la fonction de répartition réelle F(x) quand la taille de l'échantillon tend vers l'infini.
Cette convergence est bien entendu une convergence au sens des variables aléatoires.
* Nous démontrons ici que Fn(x) converge vers F(x) en probabilité en chaque point, grâce à une généralisation de la Loi Faible des Grands Nombres.
* En fait, la convergence est bien plus forte que celà, puisqu'il s'agit d'une convergence presque sure en chaque point x (très difficile).
* En fait, la convergence est encore plus forte que la convergence presque sure en chaque point. On montre (Théorème de Glivenko-Cantelli) que si l'on note :
Xn = sup|Fn(x) - F(x)|
la v.a. définie comme la plus grande différence (en valeur absolue) entre Fn(x) et F(x) (observée pour toutes les valeurs de x pour un échantillon donné), alors Xn converge vers 0 presque surement.
On remarquera que Xn est la statistique du test de Kolmogorov.
Cette propriété rend la fonction de répartition empirique un instrument indispensable pour le praticien :
_________________________________________
Voir aussi :
|