|
Animation interactive |
Standardisation
Si deux champs de votre base de données contiennent respectivement :
les deux étant exprimés en euros, le premier ne contiendra
que des nombres considérablement plus petits que ceux figurant dans le
deuxième.
Il est alors généralement considéré que le deuxième champ aura une influence beaucoup plus importante sur la construction d'un modèle que le premier, dont les faibles valeurs numériques ne pourront pas "lutter" avec celles du premier. Une analyse ultérieure de l'influence des variables individuelles sur le résultat final tendra à sous-estimer l'importance réelle du premier champ (solde mensuel).
Afin d'équilibrer les influences a priori des champs, il est d'usage d'appliquer, avant modélisation, à chacune des variables numériques une transformation linéaire qui amènera sa moyenne à "0" et sa variance à "1". Les nouvelles variables ainsi créées sont dites "standardisées" (ou, improprement, "normalisées"), ou également centrées-réduites.
La transformation de standardisation est :

pour chacune des variables xi.
Chaque variable est standardisée indépendamment des autres variables : la standardisation n'est pas une transformation multivariée. Une transformation plus complexe peut non seulement standardiser les variables, mais de plus rendre la matrice de covariance égale à la matrice identité In (ce que la standardisation ordinaire ne fait pas). La distribution est alors dite "sphérisée".
L'illustration ci-dessous montre l'effet de la standardisation sur la distribution d'une variable : la moyenne est ramenée à la valeur "0", et la distribution est ressérée de façon à ramener sa variance à la valeur "1".
Lorsque la distribution n'est pas connue, le praticien se contentera de standardiser chacune des variables de l'échantillon, comme le montre l'illustration ci-dessous.
L'animation interactive suivant illustre la standardisation d'un échantillon (une seule variable). Pour la voir, vous devez avoir Flash Player sur votre ordinateur. Si vous ne l'avez pas, vous pouvez le télécharger gratuitement à www.macromedia.com/downloads/ .
L'échantillon supérieur (points rouges) est l'échantillon original non standardisé. Sa moyenne est marquée par un trait vertical bleu.
L'échantillon inférieur (points bleus) est l'échantillon standardisé :
* Sa moyenne est toujours égale à 0,
* Son écart-type est toujours égal à 1.
Faites glisser les points rouges avec votre souris, et observez les changements correspondants de l'échantillon standardisé.
Aucune échelle n'est mentionnée pour l'échantillon supérieur
: toutes les échelles conduiraient au même échantillon standardisé.
__________________________
Voir aussi: