|
Animation interactive
|

|

Histogramme
Etant donné un échantillon issu d'une densité de probabilité
p(x) inconnue, un histogramme est un modèle conçu pour donner
de cette distribution une représentation graphique raisonnablement fidèle.
Un histogramme est construit comme suit :
- L'analyste choisit une largeur Δx et
place sur l'axe des x des intervalles contigus de longueur Δx.
L'origine de ce placement est arbitraire, et n'est pas critique.
- Le nombre de points recouverts par chacun de
ces intervalles est compté.
- Un rectangle vertical de largeur Δx,
appelé une case, est positionné sur chacun de ces intervalles. La
hauteur de ce rectangle est rendue égale au nombre de points dans l'intervalle.
L'histogramme est donc une série de rectangles contigus
tels que la hauteur de chacun de ces rectangles soint égale au nombre de points
recouverts par la base du rectangle.
L'histogramme comme représentation graphique de p(x)
On espère, comme d'habitude, que l'échantillon suit
fidèlement p(x), à savoir qu'il y a beaucoup de points dans
les régions où p(x) prend de grandes valeurs, et peu de points
dans les régions où p(x) est proche de 0. Donc les cases
doivent être hautes dans les régions où p(x) prend de grandes
valeurs, et basses dans les régions où p(x) est proche de
0. Le "profil" de l'histogramme (convenablement normalisé) est alors
une représentation discrétisée, en escalier, de p(x) (image inférieure
de l'illustration ci-dessous).

L'histogramme comme modèle
L'histogramme est :modèle :
- Descriptif.
- Non paramétrique.
- Local : la hauteur des cases ne dépend que du
nombre de points se trouvant dans une petite région du domaine de la variable
x.
- L'histogramme est utilisé presque exclusivement
pour sa valeur graphique de représentation approximative de p(x).
Pourtant, d'un point de vue théorique, l'histogramme est un modèle d'estimation
de densité de probabilité. Etant donné un nombre x0 situé
dans le domaine de x, la hauteur de la case recouvrant x0 est
une estimation de p(x0).
Nous développons maintenant brièvement ce point de vue.
L'histogramme et le "compromis biais-variance"
Grâce à sa simplicité, l'histogramme fournit une
bonne illustration d'un des problèmes les plus importants de la pratique
de la modélisation : le compromis bias-variance. Dans le cas de
l'histogramme, le compromis biais-variance s'énonce comme suit :
- Un histogramme ayant trop peu de cases n'est
pas utile, car il "gomme" les détails de la distribution.
- Un histogramme ayant trop de cases n'est pas
utile car les cases, très étroites, ne font que marquer les positions
des points (qui sont déjà connues), mais ne dit rien sur les grandes lignes
de leur distribution (image inférieure de l'illustration ci-dessous).
Un "bon" histogramme doit donc avoir des
cases d'une largeur de case Δx optimale.
Quelle est cette largeur ? La réponse est décevante : il n'est pas possble de
la calculer. Mais il serait possible de l'estimer grossièrement par des techniques
de validation.
- Cette question se rencontre sous de multiples
formes en modélisation, et est d'une grande importance pratique. Nous l'illustrons
avec l'exemple de l'histogramme dans la page
suivante.
- Elles aussi illustrée par une animation interactive
que vous trouverez ici.
Vous trouverez ici plus
d'information sur le compromis biais-variance.
____________________________________________________________
Voir aussi :
|
Estimation
|

|
|
Compromis biais-variance
|

|
|
|
Téléchargez
ce Glossaire
|

|