|
Animation interactive |
Standardisation
Soit X une v.a. de moyenne µ et de variance σ². Standardiser cette variable, c'est la transformer par une transformation linéaire en une variable X ' :
X ' = aX + b
telle que X ' ait une moyenne nulle et soit de variance unité.
Nous incitons le lecteur à se reporter aux propriétés des transformations élémentaires de v.a. pour montrer que :
|
|
Une variable standardisée est également appelée "variable centrée-réduite".
La distribution de X ' ne dépend plus de µ ou de σ. Ces grandeurs ne sont en général pas connues, mais il arrive parfois que de les remplacer dans l'expression ci-dessus par leurs estimateurs produise une variable X '' dont la distribution est calculable exactement, ce qui permet alors de concevoir des intervalles de confiance et des tests portant sur leurs valeurs supposées (voir p. ex. test t).
En termes imprécis, le Théorème Central Limite (TCL) dit que la distribution d'une somme de variables indépendantes et identiquement distribuées ressemble de plus en plus à une distribution normale quand le nombre de variables de la somme tend vers l'infini. Mais en même temps, la moyenne (en valeur absolue) et la variance de cette somme tendent vers l'infini, ce qui rend malaisée la formalisation de cette tendance à la normalité en raison du fait que la distribution de référence (normale) change quand le nombre de variables de la somme augmente.
La standardisation de la somme permet à sa distribution de converger vers une distribution fixe (la distribution normale standard), ce qui rend alors la propriété de "convergence vers la normalité" dénuée de tout ambiguïté (voir par exemple l'animation sur la distribution binomiale).
D'autres résultats de convergence vers la distribution normale ne sont pas des conséquences immédiates du TCL, mais requièrent eux aussi une étape préliminaire de standardisation pour pouvoir être correctement formulés (voir par exemple la convergence de la distribution de Poisson vers une distribution normale quand le paramètre λ tend vers l'infini).
Il est commun, avant de procéder à la construction d'un modèle, de standardiser les données numériques de façon à répondre à la préoccupations suivante.
Supposons que deux des champs d'une base de données contiennent respectivement :
les deux étant exprimés en euros. Le premier champ ne contiendra
que des nombres considérablement plus petits que ceux figurant dans le
deuxième.
Il est alors généralement considéré que le deuxième
champ aura une influence beaucoup plus importante sur la construction d'un modèle
que le premier, dont les faibles valeurs numériques ne pourront pas "lutter"
avec celles du premier. Une analyse ultérieure de l'influence des variables
individuelles sur le résultat final tendra à sous-estimer l'importance réelle
du premier champ (solde mensuel).
Après standardisation de ces variables, leurs valeurs vraies ne rentrent plus en ligne de compte, et seules leurs distributions et leurs interactions (p. ex. corrélation) influent sur le modèle.
Tous les logiciels de statistique incorporent la possibilité de standardiser les données numériques.
L'animation interactive suivant illustre la standardisation d'un échantillon (une seule variable).
L'échantillon supérieur (points rouges) est l'échantillon original non standardisé. Sa moyenne est marquée par un trait vertical bleu. L'échantillon inférieur (points bleus) est l'échantillon standardisé : * Sa moyenne est toujours égale à 0, * Son écart-type est toujours égal à 1.
Faites glisser les points rouges avec votre souris, et observez les changements correspondants de l'échantillon standardisé.
|
La notion de standardisation se généralise au cas d'une distribution multivariée, et donc au cas où X est un vecteur aléatoire.
Le plus simple est alors de standardiser chacune des composantes de X individuellement. La faiblesse de cette approche est de ne pas prendre en compte les couplages entre ces composantes : la distribution multivariée résultante est bien de moyenne nulle, les variances de chacune de ses distributions marginales sont bien égales à 1, mais la matrice de covariance de la distribution n'est pas la matrice unité, et les composantes transformées ne sont donc pas décorrélées.
Il existe cependant une transformation linéaire de X qui non seulement rend les marginales de la distribution de X ' standard, mais qui, de plus, rend la matrice de covariance de X ' égale à la matrice unité : c'est la transformation de Mahalanobis.
Le vecteur est alors dit "sphérisé". Cette expression n'est cependant correcte que lorsque la transformation de Mahalanobis est appliquée à un vecteur de distribution multinormale : la distribution résultante est alors effectivement multinormale à symétrie sphérique de matrice de covariance unité. La sphérisation préalable d'une distribution normale multivariée permet en général de grandement simplifier les calculs, les résultats étant alors "ramenés" à la distribution originale par la transformation de Mahalanobis inverse.
____________________________________________
Voir aussi: