Animation interactive

Moyenne

Ce terme a deux significations proches l'une de l'autre, mais qu'il convient de distinguer :

    1) La première est la signification ordinaire, non statistique. Elle s'étend à la notion de "moyenne d'un échantillon tiré d'une distribution de probabilité" (en anglais, "Average").

    2) La deuxième porte sur la notion de "moyenne d'une distribution de probabilité" (en anglais, "mean").

 

Examinons successivement ces deux notions.

 

1) Moyenne ordinaire

    Par définition, la moyenne d'un ensemble de N nombres {x1, x2, ..., xN }est

= (i xi)/N  

La figure ci-dessous illustre le concept de "moyenne".

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

* Faites glisser les points avec votre souris, et observez l'effet sur la position de la moyenne.

 

* Augmentez le nombre de points, et observez que la position de la moyenne devient moins sensible à la position du point que vous faites glisser.

 

* Faites glisser un point d'une extrémité de la scène à l'autre, et estimez l'étendue du parcours de la moyenne. Recommencez maintenant avec un autre point. Cette étendue a-t-elle varié ?  Refaite l'expérience avec une nouvelle configuration initiale (avec le même nombre de points). Quelle conclusion en tirez-vous ?

 

* Explicitez la formule (très simple) qui donne l'étendue de la variation de la moyenne quand un point parcours la scène d'une extrémité à l'autre.

 

 

 


 2) Moyenne d'une distribution de probabilité

 

    a) Cas discret

        Si  x0, x1 , ..., xi , ... est une suite (possiblement infinie) de nombres, et si la probabilité pi est affectée au nombre xi, alors, par définition, la moyenne m de la distribution est

m = i xi.pi


à supposer que cette quantité existe, c'est à dire soit finie.
 

La moyenne est donc la somme des nombres pondérés par leurs probabilités respectives.


On a, bien sûr, i pi = 1.

Dans le cas où les nombres sont en nombre fini, et où ils ont tous la même probabilité, on retrouve la notion ordinaire de moyenne.

 

b) Cas continu

    La distribution de probabilité est maintenant définie par une densité de probabilité  p(x) . La définition de la moyenne est la même que dans le cas discret, la sommation étant remplacée par une intégrale :

 

à supposer que cette quantité existe, c'est à dire soit finie.

 
Bien sûr, l'intégrale de p(x) est 1.
         
__________________________________________


On entend parfois que la moyenne est la valeur autour de laquelle il est le plus probable de voir apparaître de nouveaux points. Il n'en est pas ainsi. De nouveaux points apparaîtront préférentiellement dans les régions où la densité de probabilité est élevée.

Dans l'exemple ci-dessous, la moyenne est dans une région de densité nulle, où aucun point n'apparaîtra jamais.

 

 

__________________________________________


L'estimateur le plus commun de la moyenne d'une distribution est la moyenne de l'échantillon. Quoi que très intuitif, ce choix mérite une explication.

 

Supposons donc que l'on dispose d'un échantillon issu d'une distribution inconnue. La moyenne de cet échantillon est notée . Cette valeur dépend de l'échantillon particulier, et aurait été différente avec un autre échantillon. La moyenne de l'échantillon  est donc une variable aléatoire (plus correctement, c'est une réalisation d'une variable aléatoire, mais nous oublierons ici cette distinction). La distribution de  est en général inconnue, mais on peut montrer en toute généralité que la moyenne de sa distribution est précisément égale à µ,  la moyenne de la distribution "mère". En termes plus techniques, on dit que l'espérance de est µ, ce que l'on note :
 

E[] = µ


Ceci est vrai quelle que soit la distribution originale (si sa moyenne existe, ce qui est le cas de presque toutes les distributions usuelles).

 

Tout estimateur possédant cette propriété est dit "non biaisé". L'absence de biais est évidemment une qualité très appréciée chez un estimateur.

_____________________________________

Vous trouverez ici une animation interactive illustrant le fait que la moyenne empirique est un estimateur sans biais de la moyenne de la distribution.

____________________________________________________________


La distribution de la moyenne empirique d'une distribution peut être calculée, au moins théoriquement, grâce aux résultats généraux sur:

    * La distribution de la somme de variables aléatoire indépendantes (voir ici), qui permet de calculer la distribution de la somme des abscisses des observations,

    * et d'un simplement changement d'échelle 1/n pour obtenir finalement la distribution de la moyenne (voir ici).

 

En règle générale, le résultat n'est pas de forme analytique simple, sauf dans des cas particuliers comme:

    * La distribution normale (voir ici), dont la moyenne empirique a également une distribution normale.

    * La distribution de Cauchy (voir ici), dont la moyenne empirique suit également une distribution de Cauchy indépendante de la taille de l'échantillon.

 

Mais dans tous les cas où la distribution originale a une moyenne µ et une variance σ², la moyenne empirique:

    * A comme espérance µ (estimation sans biais de la moyenne  µ)

    * Et comme variance de sa distribution σ²/n, où n et la taille de l'échantillon.

_____________________________________________________________


L'immense majorité des distributions usuelles ont une moyenne. Mais il existe des distributions parfaitement respectables qui n'en ont pas. La raison en est toujours la même:

    * La décroissance de p(x) à l'infini est suffisamment rapide pour garantir que son intégrale soit finie (égale à 1).

    * Mais pas suffisamment rapide pour empêcher la divergence de:

 

qui n'est alors pas définie.

Les moments d'ordre supérieur sont alors a fortiori infinis (n'existent pas).

 

L'exemple le plus classique de distribution sans moyenne est la distribution de Cauchy. Deux autres exemples sont les distributions de Fisher Fn, 2 et Fn, 1.

 

 ____________________________________________________________

 

Voir aussi:

Espérance

Téléchargez ce Glossaire