ANIMATION INTERACTIVE: HISTOGRAMME
Cette animation interactive illustre le concept d'histogramme, et en particulier le "compromis biais-variance".
|
|
Cadre
Dans le cadre se trouvent:
1) Une ligne verte horizontale, qui représente une distribution uniforme.
2) Un échantillon issu de cette distribution. La taille de l'échantillon se lit dans l'affichage "Nb Points". Vous pouvez changer la taille de l'échantillon avec les boutons "Nb Points". Un nouvel échantillon est tiré pour chaque nouvelle taille.
3) L'histogramme (jaune) de cet échantillon pour le nombre de cases lisible dans l'affichage "Nb Bins". Vous pouvez changer le nombre de cases avec les boutons "Nb Bins".
Vous pouvez changer la forme de la densité en cliquant plusieurs fois dans le cadre, au-dessus ou au-dessous de la ligne verte. A chaque clic, un nouvel échantillon est tiré, et l'histogramme correspondant est affiché.
Animation
Après avoir choisi une forme de densité, une taille d'échantillon et un nombre de cases, cliquez sur "Go". Des échantillons successifs sont tirés de la même densité, et pour chaque échantillon, l'histogramme correspondant est affiché.
En mode "Pause", vous pouvez tirer manuellement des échantillons successifs avec le bouton "Step".
Le but de cette animation est d'illustrer le "compromis biais-variance".
1) Pour un nombre de points donné, faites varier le nombre de cases (ceci peut se faire sans interrompre l'animation).
Il existe donc un nombre de cases "optimal", assurant un compromis acceptable entre:
Malheureusement, il n'existe aucune définition simple du terme "optimal". On peut facilement en imaginer plusieurs, basées par exemple sur la distance de Kullback-Leibler, mais aucun n'a un caractère absolu. En tout état de cause, le praticien ne peut être intéressé par un tel critère, qui suppose la densité connue.
2) Pour un nombre de cases donné, faites varier le nombre de points (ceci peut se faire sans interrompre l'animation). Observez que la stabilité de l'histogramme s'améliore lorsque le nombre de points augmente, et se dégrade lorsque ce nombre diminue. Pour un niveau de stabilité (et donc une crédibilité) donné, on peut donc réduire la largeur des cases (augmenter leur nombre) et améliorer la "netteté" de l'image de la densité quand on dispose de grands échantillons. La largeur "optimale" des cases diminue lorsque la taille de l'échantillon augmente.