Variance
Soit X une variable aléatoire.
L'espérance de X, soit E[X] = µ, renseigne sur la tendance centrale de la distribution, mais ne donne aucune information sur la dispersion des valeurs de X autour de leur valeur moyenne. Dans l'illustration ci-dessous, les distributions rouge et verte ont la même moyenne, mais des dispersions très différentes.

Une idée naturelle pour quantifier cette dispersion serait de mesurer à quelle distance de la moyenne tombe, en moyenne, une réalisation de X. On pourrait ainsi considérer l'espérance de la distance de X à sa moyenne :
E[| X - µ |]
où |...| est la valeur absolue.
Mais il s'avère que la valeur absolue n'a pas de "bonnes" propriétés mathématiques.
On considèrera donc plutôt l'espérance du carré de la distance de X à sa moyenne µ. Ainsi, la définition de la variance d'une variable aléatoire X est :
|
Var(X) = E[(X - µ)²] |
-----
* Si la variable est continue avec une densité de probabilité p(x) :

* Si la variable est discrète :
Var(X) = Si(xi - µ)².P{X = xi}
Notez que les deux expressions ci-dessus ne sont pas des définitions, mais découlent du Théorème sur l'espérance d'une fonction d'une v.a. (voir ici) appliqué à la définition de la variance .
-----
La variance d'une distribution est habituellement notée s².
Dans ce Glossaire, nous utiliserons fréquemment la forme alternative de la variance :
|
Var(X) = E[X²] - E[X]² |
que nous démontrons ici.
Toutes les variables aléatoire n'ont pas une variance. Ainsi, une variable de Cauchy n'a pas de moyenne et, a fortiori, pas de variance. La raison en est que l'intégrale ci-dessus prend une valeur infinie parce que les ailes de la distribution sont trop importantes, donnant ainsi une importance exagérée au terme
(x - µ)² pour les valeurs de x très éloignées de la moyenne µ.
Bien que très simples, les deux expressions de la variance données ci-dessus conduisent parfois à des calculs difficiles, voire inextricables. Rappelons que la fonction génératrice des moments est un outil très puissant de calcul des moments d'une distribution de probabilité (et donc, en particulier, de la variance), et dont nous nous servirons fréquemment dans ce Glossaire, en particulier pour le calcul de la variance des distributions de probabilité classiques.
Par ailleurs, nous donnons ci-dessous une troisième forme de la variance, dite "Théorème de la variance conditionnelle", et dont nous donnerons un exemple d'application pour le calcul d'une variance.
Un inconvénient de la variance est qu'elle s'exprime en des unités qui sont les unités de la variable au carré. Ainsi, si X représente la taille des individus d'une population exprimée en centimètres, la variance de X sera exprimée en centimètres carrés.
Pour avoir une mesure de dispersion qui soit dans les mêmes unités que la variable elle-même, on considère la racine carrée de la variance, qui s'appelle l'écart-type :
Ecart-type(X) = [Var(X)]1/2
L'écart-type est noté s.
Pour toute paire de nombres réels a et b, nous avons :
|
Var(aX + b) = a²Var(X) |
En particulier :
* Une translation (a = 1) ne change pas la variance.
* Une "variable aléatoire" constante (a = 0) a une variance nulle.
Soient X et Y deux variables aléatoires ayant toutes deux une variance. Alors la variance de leur somme X + Y est donnée par :
|
Var(X + Y) = Var(X) + Var(Y) + 2.Cov(X, Y) |
où Cov(X, Y) est la covariance de X et de Y.
Nous démontrons ici un résultat un peu plus général.
Soient X et Y deux variables aléatoires. Considérons la variance de X conditionnellement à Y = y0 :
|
Var(X |Y = y0) |
= E[X - E[(X |Y = y0)]² | Y = y0] |
|
|
= E[X² | Y = y0] - E[X | Y = y0]² |
Cette expression représente un nombre, pas une variable aléatoire. Remarquez la présence de E[(X |Y = y0)], l'espérance conditionnelle de X.
En termes intuitifs, cette quantité est la variance de X quand seuls les tirages de la paire (X, Y) avec Y = y0 sont pris en compte, les autres tirages étant ignorés. Par exemple, si X est la variable "Taille" et Y est la variable "Poids" des individus d'une certaine population, on considèrerait la variance de la taille des individus ayant tous un même poids y0.
Cette illustration représente la distribution de probabilité conjointe de deux v.a. X et Y. Pour une valeur donnée y0 de Y, une ligne horizontale tracée à travers cette distribution définit une courbe (image inférieure de l'illustration).
Après normalisation, cette courbe représente la densité de probabilité de X conditionnellement à Y = y0 (densité de probabilité conditionnelle).
La variance de X conditionnellement à Y = y0 est la variance de cette densité.
-----
Par définition, la variance de X conditionnellement à Y est :
Var(X |Y) = E[X - E[(X |Y)]² | Y ]
C'est une variable aléatoire.
Nous démontrerons l'important Théorème de la Variance Conditionnelle :
|
Var(X) = E[Var(X |Y )] + Var(E[X |Y]) |
Il est utile pour calculer la variance ("totale" ou "marginale") d'une v.a. dans certains cas difficiles. Nous l'utiliserons pour calculer la variance de la longueur de la deuxième coupe dans le problème de la "distibution uniforme récursive".
Il est également un élément important de la démonstration du théorème de Rao-Blackwell, qui montre comment réduire la variance d'un estimateur sans biais.
-----
Nous donnerons également une interprétation géométrique de la variance conditionnelle.
Soit {x1, x2, ...,
xn} un échantillon de n observations
issu d'une distribution de probabilité. Suivant le même schéma de pensée que
précédemment, nous définissons s², la variance empirique
("empirique" voulant dire "de l'échantillon"), comme la moyenne des
carrés des différences entre les valeurs des observations et la moyenne
de
l'échantillon.
s² = 1/n.Si(xi
-
)²
i
= 1, 2, ..., n
Nous laissons au lecteur le soin de montrer que cette expression est équivalente à celle-ci :
s² = 1/n.(Si
xi²) -
²
-----
Pour des raisons qui apparaîtront clairement dans quelques lignes, n est souvent remplacé par n - 1 dans l'expression ci-dessus. Cette modification conduit à la définition alternative de la variance empirique :
s'² = 1/(n - 1). Si(xi
-
)²
i
= 1, 2, ..., n
La différence entre ces deux définitions est négligeable pour de grandes valeurs de n, mais est appréciable pour de petites valeurs de n (petits échantillons). En tout état de cause, lorsque l'on voit mentionné une "variance empirique", il est bon de vérifier quelle est la définition utilisée par l'auteur.
Le changement de n en n - 1 dans la définition de la variance empirique est relié à la question de l'estimation de la variance d'une distribution en utilisant la variance empirique comme estimateur. Nous montrerons que :
* La variance empirique s² est un estimateur biaisé de la variance s² de la distribution.
* Alors que la variance empirique "corrigée" s'² est un estimateur sans biais de la variance s² de la distribution.
|
E[1/(n - 1). Si(xi
- |
La nécessité de remplacer n par (n -
1) vient de ce que la moyenne µ de la distribution est inconnue, et doit
être remplacée par son estimation
.
Si µ est connue, alors :
s² = 1/n.Si(xi - µ)²
est un estimateur sans biais de la variance de la distribution.
L'élimination du biais ne va pas toujours sans inconvénient.
Par exemple, nous montrons ici
que l'estimateur sans biais de la variance d'une distribution normale a des
performances inférieures à celles de son cousin biaisé.
-----
Il est remarquable qu'un estimateur sans biais de
la variance d'une distribution puisse être trouvé sans aucune connaissance de
la distribution elle-même. La seule autre circonstance où un tel petit miracle
se produit est avec la moyenne d'une distribution, qui est estimée sans biais
par la moyenne
de
l'échantillon.
Le résultat précédent s'applique à l'estimation de la variance dans une population inifinie, ou bien dans une population finie sous le schéma d'échantillonnage avec remise. La question de l'estimation de la variance dans le cas d'une population finie par échantillonnage sans remise est plus complexe, et abordée ici.
Même lorsque la distribution est explicitement connue, le calcul de la distribution de la variance empirique est en général inextricable. La seule exception notable est la distribution normale : la distribution de sa variance empirique est complètement connue, et est intimement reliée à la distribution du Chi-2. En fait, ce sont les premières tentatives d'identification de la distribution de la variance empirique de la distribution normale qui ont permis de définir la distribution du Chi-2.
En conséquence, les tests portant sur les variances sont limités au cas où les distributions impliquées sont normales. Parmi les tests les plus utilisés, mentionnons :
* Le test de comparaison d'une variance à une valeur de référence. Ce test repose sur la distribution en Chi-2 de la variance empirique.
* Les tests d'égalité de variances :
- Test F de Fisher pour l'égalité de deux variances.
- Tests dits "d'homogénéité des variances" (égalité de plus de deux variances) : tests de Levene, de Bartlett, de Hartley.
Ces test sont importants parce de nombreux tests paramétriques (tests t, ANOVA) reposent sur l'hypothèse d'égalité des distributions normales impliquées.
La notion de variance est définie pour des distributions univariées. Les distributions multivariées ont elles-aussi des dispersions (multidimensionnelles) autour de leur vecteur moyen. La généralisation multivariée de la variance est alors la matrice de covariance.
Cependant, deux généralisations scalaires (nombres) de la variance sont souvent utilisées :
* L'inertie d'une distribution, qui est la somme des carrés des valeurs propres de la matrice de covariance.
* La "variance généralisée", qui est égale au déterminant de la matrice de covariance, et donc au produit des valeurs propres de cette matrice.
_________________________________________
La Régression fait l'hypothèse que les données sont générées par une distribution de probabilité p(x, y) que l'on peut décrire par une fonction déterministe f(x) corrompue par un bruit aléatoire :
p(x, y) = f(x) + e(x)
où e(x) est une variable aléatoire dépendant en général de x. Cette nature aléatoire disperse les valeurs des observations le long de l'axe des y.
Un des objectifs de la régression est d'estimer la variance du bruit e(x). Le seul cas où cette entreprise peut être complètement menée à son terme est celui de la Régression Linéaire (Simple ou Multiple) sous quelques conditions supplémentaires (en particulier, le fait que e(x) ne dépende pas, en fait de x, (homoscédasticité)).
La variance du bruit peut alors effectivement être estimée sans biais par une quantité qui ressemble quelque peu à la variance empirique décrite ci-dessus, mais dont la justification est plus complexe que celle de la variance empirique.
Un modèle de régression est une équation qui contient des paramètres dont les valeurs sont calculées à partir des données de l'échantillon. Celui-ci étant aléatoire, les paramètres sont des variables aléatoires.
L'analyste espère que les valeurs de ces paramètres ne dépendent pas trop de l'échantillon, et donc qu'ils ont des variances faibles.
A nouveau, la Régression Linéaire est le seul cadre où l'estimation exacte des variances des paramètres du modèle est possible.
Un modèle de régression fait des prédictions sur la valeur de y pour toute valeur de x (dans les limites de validité du modèle). Le modèle étant construit à partir d'un échantillon aléatoire, ces prédictions sont des variables aléatoires.
L'analyste est particulièrement intéressé par les variances de ces prédictions. A supposer que ces dernières soient sans biais, seules les prédictions de faible variance peuvent être considérées comme fiables.
A nouveau, seule la Régression Linéaire permet de calculer théoriquement la variance des prédictions du modèle.
Un des points essentiels que l'analyste doit garder présent à l'esprit est que la variance des prédictions d'un modèle dépend du type de modèle qu'il a choisi de construire. En termes très généraux, un "gros" modèle (c.à.d. avec beaucoup de paramètres) génère des prédictions ayant des variances plus importantes que celles d'un "petit" modèle.
Mais les prédictions d'un gros modèle ont également des biais moins importants que celles des petits modèles.
L'analyste est donc confronté à un dilemme : il doit accepter un certain niveau de biais dans le but de réduire la variance des prédictions, et vice versa.
Cette question importante s'appelle le compromis biais-variance.
___________________________________________________________
|
Tutoriel |
Nous démontrons ici quelques résultats élémentaires sur la variance.
L'importance du Théorème de la variance conditionnelle est illustrée par le problème de la distribution "uniforme récursive". Nous calculerons ainsi assez facilement la variance de la longueur de la deuxième coupure, un résultat qu'il serait plus difficile d'obtenir directement.
Nous avons calculé ici
l'espérance de longueur de cette deuxième coupure par le Théorème de l'espérance
itérée.
VARIANCE ET VARIANCE CONDITIONNELLE
|
Autre expression de la variance Variance de la transformée linéaire d'une v.a. Variance d'une combinaison linéaire de v.a. Cas général Cas particulier : variance d'une somme de v.a. Estimation d'une variance par la variance empirique L'estimateur "naturel" L'estimateur sans biais "Sans biais" est-il toujours "meilleur" ? Théorème de la variance conditionnelle Démonstration Interprétation géométrique Un exemple d'application : la "distribution uniforme récursive" |
||
|
TUTORIEL |
||
____________________________________________________
Voir aussi :