Par définition, la racine carré (positive ) de la variance.
* L'Ecart-type d'une distribution
est souvent noté
(et la variance d'une distribution
²).
* L'écart-type d'un échantillon est souvent noté s.
La variance est la mesure "naturelle" de la dispersion d'un groupe de valeurs autour de leur moyenne. Mais elle est exprimée dans le carré de l'unité de mesure de la grandeur étudiée. Ainsi, si l'on considère un groupe de soldes bancaires mesurés en €, sa variance est mesurée en (€)², unité pour le moins peu parlante. Mais son Ecart-type est lui, exprimé en €, comme la grandeur étudiée.
La figure ci-dessous illustre le concept d'Ecart-type. Pour la voir, vous devez avoir FlashPlayer sur votre ordinateur. Si vous ne l'avez pas, vous pouvez le télécharger gratuitement à www.adobe.com/downloads/ .
Chacun des segments de part et d'autre de la moyenne a une longueur de 1 Ecart-type.
Déplacez les points rouges avec votre souris, et observez
l'influence de leur position sur l'Ecart-type.
* Poussez un point vers la
moyenne, et l'Ecart-type diminue, éloignez-le de la moyenne et l'E-T augmente.
* Quelle est la plus grande
valeur de l'E-T que vous pouvez obtenir (dans les limites de l'illustration)
? Comment décririez-vous les configurations d'E-T maximal ?
* Il est facile d'obtenir des configurations pour lesquelles chacun des deux marqueurs d'E-T sont à l' "intérieur" du groupe de points rouges. Comment caracteriseriez-vous (en mots) ces configurations ?
Vous pouvez également obtenir des configurations pour lesquelles un marqueur E-T est "intérieur", et l'autre "extérieur". Comment caracteriseriez-vous en mots ces configurations ?
En déplaçant les points rouges, essayez maintenant de placer les deux marqueurs E-T à l'extérieur du groupe de points. C'est impossible. Pourquoi ?
La définition de l'Ecart-type est arbitraire (de même
que celle de la variance). Le même phénomène serait-il observé avec tout autre
définition raisonable de la dispersion d'un groupe de points ?
* Obtenez une configuration dans laquelle un point
rouge est situé exactement sous le marqueur E-T de gauche. Observez maintenant
le marqueur E-T de droite. Déplacez le point vers la droite : le marqueur de
droite se déplace vers la droite. Ramenez le point à sa position initiale, puis
déplacez-le vers la gauche. Le marqueur de droite se déplace encore vers la
droite.
Pouvez-vous expliquer ceci ? Le même phénomène serait-il observé
avec tout autre définition raisonable de la dispersion d'un groupe de points
?
______________
Un échantillon est une partie d'une population (d'individus) :
1) Beaucoup plus petite que la population dont elle est extraite (et qui est en général considérée comme infinie),
2) Mais dont on espère que la distribution est fidèlement représentative, à "petite échelle", de la distribution de la population complète,
3) Et que vous avez dans votre base de données.
L'échantillon est la matière première à partir de
laquelle les modèles seront construits. L'information extraite de l'échantillon par
le modèle sera, on l'espère, également applicable à la population dans son ensemble.
En pratique, les choses sont un peu plus compliquées.
1) Les données brutes ne sont presque jamais utilisables sans un effort considérable d'audit et de mise en forme (élimination des individus et des variables ayant trop de champs non renseignés, élimination des individus aberrants, choix des variables pour la construction du modèle, codage des variables etc...).
2) Une grande attention doit être portée à la question des possibles biais de l'échantillon : "Est-il vraiment représentatif de la population que l'on veut modéliser ?". Les causes de biais sont nombreuses, souvent difficiles à détecter, et parfois impossibles à corriger.
3) L'échantillon n'étant qu'une
partie de la population, il ne contient qu'une fraction de l'information nécessaire
pour décrire la population sans ambiguïté. En conséquence, toute conclusion
tirée de la modélisation de l'échantillon ne peut être transposée à la population
complète qu'avec un certain niveau d'incertitude. Une des préoccupations les
plus importantes du Data Mining est d'estimer ce niveau d'incertitude, de façon
à ce que les prises de décision consécutives à l'élaboration du modèle puissent
être "pondérées" par un niveau de risque connu. L'estimation
des incertitudes d'un modèle est appelée validation de ce modèle.
_____________________________________
En Statistique, le terme "Echantillon" recouvre une réalité un peu plus restreinte. Il s'agit toujours d'un groupe d'observations tirés d'une population, mais dont on ne considère le plus souvent qu'une variable. Par exemple, lorsque cette variable est numérique, un échantillon de n observations est donc simplement une collection de n nombres.
L'échantillon est en général la seule information dont dispose le statisticien sur la distribution de probabilité qui a généré les observations. C'est lui qui va "alimenter" les tests portant sur cette distribution inconnue.
Les tests portent fréquemment sur plusieurs échantillons, par exemple lorsqu'il faut décider s'ils ont été ou non extraits d'une même population. Il convient alors de distinguer entre "Echantillons indépendants" et "Echantillons appariés". Ces notions importantes sont détaillées ici.