Animation interactive

Histogramme

Etant donné un échantillon issu d'une densité de probabilité p(x) inconnue, un histogramme est un modèle conçu pour donner de cette distribution une représentation graphique raisonnablement fidèle.

Un histogramme est construit comme suit :

 

L'histogramme est donc une série de rectangles contigus tels que la hauteur de chacun de ces rectangles soint égale au nombre de points recouverts par la base du rectangle.

L'histogramme comme représentation graphique de p(x)

On espère, comme d'habitude, que l'échantillon suit fidèlement  p(x), à savoir qu'il y a beaucoup de points dans les régions où p(x) prend de grandes valeurs, et peu de points dans les régions où p(x) est proche de 0. Donc les cases doivent être hautes dans les régions où p(x) prend de grandes valeurs, et basses dans les régions où p(x) est proche de 0. Le "profil" de l'histogramme (convenablement normalisé) est alors une représentation discrétisée, en escalier, de p(x) (image inférieure de l'illustration ci-dessous).
 

 

L'histogramme comme modèle

L'histogramme est :modèle :

L'histogramme et le "compromis biais-variance"

Grâce à sa simplicité, l'histogramme fournit une bonne illustration d'un des problèmes les plus importants de la pratique de la modélisation : le compromis bias-variance. Dans le cas de l'histogramme, le compromis biais-variance s'énonce comme suit :

 

 

 

Un "bon" histogramme doit donc avoir des cases d'une largeur de case Δx optimale. Quelle est cette largeur ? La réponse est décevante : il n'est pas possble de la calculer. Mais il serait possible de l'estimer grossièrement par des techniques de validation.

 

Vous trouverez ici plus d'information sur le compromis biais-variance.

 

____________________________________________________________

 

Voir aussi :

Estimation

Compromis biais-variance

Téléchargez ce Glossaire