Variance

Soit X une variable aléatoire.

Définition de la variance

Dispersion autour de la moyenne

L'espérance de X, soit E[X] = µ, renseigne sur la tendance centrale de la distribution, mais ne donne aucune information sur la dispersion des valeurs de X autour de leur valeur moyenne. Dans l'illustration ci-dessous, les distributions rouge et verte ont la même moyenne, mais des dispersions très différentes.

 

 

 

Une idée naturelle pour quantifier cette dispersion serait de mesurer à quelle distance de la moyenne tombe, en moyenne, une réalisation de X. On pourrait ainsi considérer l'espérance de la distance de X à sa moyenne :

E[| X - µ |]

où |...| est la valeur absolue.

Mais il s'avère que la valeur absolue n'a pas de "bonnes" propriétés mathématiques.

Définition de la variance

On considèrera donc plutôt l'espérance du carré de la distance de X à sa moyenne µ. Ainsi, la définition de la variance d'une variable aléatoire X est :

 

Var(X) = E[(X - µ)²]

 

-----

    * Si la variable est continue avec une densité de probabilité p(x) :

 

    * Si la variable est discrète :

Var(X) = Si(xi - µ)².P{X = xi}

P{X = xi} est la probabilité pour que X prenne la valeur xi.

 

Notez que les deux expressions ci-dessus ne sont pas des définitions, mais découlent du Théorème sur l'espérance d'une fonction d'une v.a. (voir ici) appliqué à la définition de la variance .

-----

La variance d'une distribution est habituellement notée s².

Forme alternative de la variance

Dans ce Glossaire, nous utiliserons fréquemment la forme alternative de la variance :

 

Var(X) = E[X²] - E[X

 

que nous démontrons ici.

Avertissement

Toutes les variables aléatoire n'ont pas une variance. Ainsi, une variable de Cauchy n'a pas de moyenne et, a fortiori, pas de variance. La raison en est que l'intégrale ci-dessus prend une valeur infinie parce que les ailes de la distribution sont trop importantes, donnant ainsi une importance exagérée au terme

(x - µ)² pour les valeurs de x très éloignées de la moyenne µ.

Calcul d'une variance

Bien que très simples, les deux expressions de la variance données ci-dessus conduisent parfois à des calculs difficiles, voire inextricables. Rappelons que la fonction génératrice des moments est un outil très puissant de calcul des moments d'une distribution de probabilité (et donc, en particulier, de la variance), et dont nous nous servirons fréquemment dans ce Glossaire, en particulier pour le calcul de la variance des distributions de probabilité classiques.

Par ailleurs, nous donnons ci-dessous une troisième forme de la variance, dite "Théorème de la variance conditionnelle", et dont nous donnerons un exemple d'application pour le calcul d'une variance.

Ecart-type

Un inconvénient de la variance est qu'elle s'exprime en des unités qui sont les unités de la variable au carré. Ainsi, si X représente la taille des individus d'une population exprimée en centimètres, la variance de X sera exprimée en centimètres carrés.

Pour avoir une mesure de dispersion qui soit dans les mêmes unités que la variable elle-même, on considère la racine carrée de la variance, qui s'appelle l'écart-type :

Ecart-type(X) = [Var(X)]1/2

L'écart-type est noté s.

Propriétés élémentaires de la variance

Transformation linéaire de la variable

Pour toute paire de nombres réels a et b, nous avons :

 

Var(aX + b) = a²Var(X)

 

En particulier :

    * Une translation (a = 1) ne change pas la variance.

    * Une "variable aléatoire" constante (a = 0) a une variance nulle.

Variance de la somme de deux variables

Soient X et Y deux variables aléatoires ayant toutes deux une variance. Alors la variance de leur somme X + Y est donnée par :

 

Var(X + Y) = Var(X) + Var(Y) + 2.Cov(X, Y)

 

Cov(X, Y) est la covariance de X et de Y.

Nous démontrons ici un résultat un peu plus général.

Variance conditionnelle

Soient X et Y deux variables aléatoires. Considérons la variance de X conditionnellement à Y = y0 :

Var(X |Y = y0)

 = E[X - E[(X |Y = y0)]² | Y = y0]

 

 = E[X² | Y = y0] - E[XY = y0

 

Cette expression représente un nombre, pas une variable aléatoire. Remarquez la présence de E[(X |Y = y0)], l'espérance conditionnelle de X.

En termes intuitifs, cette quantité est la variance de X quand seuls les tirages de la paire (X, Y) avec Y = y0 sont pris en compte, les autres tirages étant ignorés. Par exemple, si X est la variable "Taille" et Y est la variable "Poids" des individus d'une certaine population, on considèrerait la variance de la taille des individus ayant tous un même poids y0.

Cette illustration représente la distribution de probabilité conjointe de deux v.a. X et Y. Pour une valeur donnée y0 de Y, une ligne horizontale tracée à travers cette distribution définit une courbe (image inférieure de l'illustration).

 

 

 

Après normalisation, cette courbe représente la densité de probabilité de X conditionnellement à Y = y0 (densité de probabilité conditionnelle).

La variance de X conditionnellement à Y = y0 est la variance de cette densité.

-----

Par définition, la variance de X conditionnellement à Y est :

Var(X |Y) = E[X - E[(X |Y)]² | Y ]

C'est une variable aléatoire.

Nous démontrerons l'important Théorème de la Variance Conditionnelle :

 

Var(X) = E[Var(X |Y )] + Var(E[X |Y])

 

 

Il est utile pour calculer la variance ("totale" ou "marginale") d'une v.a. dans certains cas difficiles. Nous l'utiliserons pour calculer la variance de la longueur de la deuxième coupe dans le problème de la "distibution uniforme récursive".

Il est également un élément important de la démonstration du théorème de Rao-Blackwell, qui montre comment réduire la variance d'un estimateur sans biais.

-----

Nous donnerons également une interprétation géométrique de la variance conditionnelle.

Estimation de la variance d'une distribution

Variance empirique

Soit {x1, x2, ..., xn} un échantillon de n observations issu d'une distribution de probabilité. Suivant le même schéma de pensée que précédemment, nous définissons s², la variance empirique ("empirique" voulant dire "de l'échantillon"), comme la moyenne des carrés des différences entre les valeurs des observations et la moyenne  de l'échantillon.

s² = 1/n.Si(xi - )²                           i = 1, 2, ..., n

Nous laissons au lecteur le soin de montrer que cette expression est équivalente à celle-ci :

s² = 1/n.(Si xi²) - ²

-----

Pour des raisons qui apparaîtront clairement dans quelques lignes, n est souvent remplacé par n - 1 dans l'expression ci-dessus. Cette modification conduit à la définition alternative de la variance empirique :

s'² = 1/(n - 1). Si(xi - )²                           i = 1, 2, ..., n

La différence entre ces deux définitions est négligeable pour de grandes valeurs de n, mais est appréciable pour de petites valeurs de n (petits échantillons). En tout état de cause, lorsque l'on voit mentionné une "variance empirique", il est bon de vérifier quelle est la définition utilisée par l'auteur.

Estimation sans biais de la variance d'une distribution

Le changement de n en n - 1 dans la définition de la variance empirique est relié à la question de l'estimation de la variance d'une distribution en utilisant la variance empirique comme estimateur. Nous montrerons que :

    * La variance empirique s² est un estimateur biaisé de la variance s² de la distribution.

    * Alors que la variance empirique "corrigée" s'² est un estimateur sans biais de la variance s² de la distribution.

 

 

E[1/(n - 1). Si(xi - )²] = s²

 

 

La nécessité de remplacer n par (n - 1) vient de ce que la moyenne µ de la distribution est inconnue, et doit être remplacée par son estimation . Si µ est connue, alors :

s² = 1/n.Si(xi - µ

est un estimateur sans biais de la variance de la distribution.


L'élimination du biais ne va pas toujours sans inconvénient. Par exemple, nous montrons ici que l'estimateur sans biais de la variance d'une distribution normale a des performances inférieures à celles de son cousin biaisé.

-----

Il est remarquable qu'un estimateur sans biais de la variance d'une distribution puisse être trouvé sans aucune connaissance de la distribution elle-même. La seule autre circonstance où un tel petit miracle se produit est avec la moyenne d'une distribution, qui est estimée sans biais par la moyenne  de l'échantillon.

Estimation de la variance dans une population finie

Le résultat précédent s'applique à l'estimation de la variance dans une population inifinie, ou bien dans une population finie sous le schéma d'échantillonnage avec remise. La question de l'estimation de la variance dans le cas d'une population finie par échantillonnage sans remise est plus complexe, et abordée ici.

Distribution d'une variance

Même lorsque la distribution est explicitement connue, le calcul de la distribution de la variance empirique est en général inextricable. La seule exception notable est la distribution normale : la distribution de sa variance empirique est complètement connue, et est intimement reliée à la distribution du Chi-2. En fait, ce sont les premières tentatives d'identification de la distribution de la variance empirique de la distribution normale qui ont permis de définir la distribution du Chi-2.

Tests sur les variances

En conséquence, les tests portant sur les variances sont limités au cas où les distributions impliquées sont normales. Parmi les tests les plus utilisés, mentionnons :

    * Le test de comparaison d'une variance à une valeur de référence. Ce test repose sur la distribution en Chi-2 de la variance empirique.

    * Les tests d'égalité de variances :

Ces test sont importants parce de nombreux tests paramétriques (tests t, ANOVA) reposent sur l'hypothèse d'égalité des distributions normales impliquées.

Généralisation de la variance

La notion de variance est définie pour des distributions univariées. Les distributions multivariées ont elles-aussi des dispersions (multidimensionnelles) autour de leur vecteur moyen. La généralisation multivariée de la variance est alors la matrice de covariance.

Cependant, deux généralisations scalaires (nombres) de la variance sont souvent utilisées :

    * L'inertie d'une distribution, qui est la somme des carrés des valeurs propres de la matrice de covariance.

    * La "variance généralisée", qui est égale au déterminant de la matrice de covariance, et donc au produit des valeurs propres de cette matrice.

_________________________________________

Variance et Régression

La Régression fait l'hypothèse que les données sont générées par une distribution de probabilité p(x, y) que l'on peut décrire par une fonction déterministe f(x) corrompue par un bruit aléatoire :

p(x, y) = f(x) + e(x)

e(x) est une variable aléatoire dépendant en général de x. Cette nature aléatoire disperse les valeurs des observations le long de l'axe des y.

Estimation de la variance du bruit

Un des objectifs de la régression est d'estimer la variance du bruit e(x). Le seul cas où cette entreprise peut être complètement menée à son terme est celui de la Régression Linéaire (Simple ou Multiple) sous quelques conditions supplémentaires (en particulier, le fait que e(x) ne dépende pas, en fait de x, (homoscédasticité)).

La variance du bruit peut alors effectivement être estimée sans biais par une quantité qui ressemble quelque peu à la variance empirique décrite ci-dessus, mais dont la justification est plus complexe que celle de la variance empirique.

Estimation de la variance des paramètres d'un modèle

Un modèle de régression est une équation qui contient des paramètres dont les valeurs sont calculées à partir des données de l'échantillon. Celui-ci étant aléatoire, les paramètres sont des variables aléatoires.

L'analyste espère que les valeurs de ces paramètres ne dépendent pas trop de l'échantillon, et donc qu'ils ont des variances faibles.

A nouveau, la Régression Linéaire est le seul cadre où l'estimation exacte des variances des paramètres du modèle est possible.

Estimation de la variance des prédictions

Un modèle de régression fait des prédictions sur la valeur de y pour toute valeur de x (dans les limites de validité du modèle). Le modèle étant construit à partir d'un échantillon aléatoire, ces prédictions sont des variables aléatoires.

L'analyste est particulièrement intéressé par les variances de ces prédictions. A supposer que ces dernières soient sans biais, seules les prédictions de faible variance peuvent être considérées comme fiables.

A nouveau, seule la Régression Linéaire permet de calculer théoriquement la variance des prédictions du modèle.

Le compromis biais-variance

Un des points essentiels que l'analyste doit garder présent à l'esprit est que la variance des prédictions d'un modèle dépend du type de modèle qu'il a choisi de construire. En termes très généraux, un "gros" modèle (c.à.d. avec beaucoup de paramètres) génère des prédictions ayant des variances plus importantes que celles d'un "petit" modèle.

Mais les prédictions d'un gros modèle ont également des biais moins importants que celles des petits modèles.

L'analyste est donc confronté à un dilemme : il doit accepter un certain niveau de biais dans le but de réduire la variance des prédictions, et vice versa.

Cette question importante s'appelle le compromis biais-variance.

___________________________________________________________

 

 

Tutoriel

 

Nous démontrons ici quelques résultats élémentaires sur la variance.

L'importance du Théorème de la variance conditionnelle est illustrée par le problème de la distribution "uniforme récursive". Nous calculerons ainsi assez facilement la variance de la longueur de la deuxième coupure, un résultat qu'il serait plus difficile d'obtenir directement.


Nous avons calculé ici l'espérance de longueur de cette deuxième coupure par le Théorème de l'espérance itérée.

 

 

VARIANCE ET VARIANCE CONDITIONNELLE

Autre expression de la variance

Variance de la transformée linéaire d'une v.a.

Variance d'une combinaison linéaire de v.a.

Cas général

Cas particulier : variance d'une somme de v.a.

Estimation d'une variance par la variance empirique

L'estimateur "naturel"

L'estimateur sans biais

"Sans biais" est-il toujours "meilleur" ?

Théorème de la variance conditionnelle

Démonstration

Interprétation géométrique

Un exemple d'application : la "distribution uniforme récursive"

TUTORIEL

 

 ____________________________________________________

 

Voir aussi :

Espérance

Covariance

Matrice de covariance

Inertie

Téléchargez ce Glossaire