Animation interactive

Bootstrap

Le "bootstrap" est une méthode qui génère, pour toute quantité définie sur une distribution de probabilité (inconnue) :

 et ceci à partir d'un unique échantillon {X1, X2, ..., Xn}. La distribution peut être continue, discrète, ou une combinaison des deux.


En d'autres termes, le bootstrap est une méthode d'estimation "comme les autres", malgré sons nom exotique. Il est plus particulièrement utilisé pour estimer les grandeurs classiques de la théorie des probabilités, par exemple :

    * Médiane d'une distribution.

    * Variance d'une distribution.

    * Coefficient de corrélation d'une distribution bidimensionnelle.

 

Il est également utilisé pour des mesures générales d' "erreur" (biais d'un estimateur, erreur de prédiction, intervalle de confiance, tests).

 

Le bootstrap a trois caractéristiques essentielles :

    1) Il est non paramétrique (ne fait aucune hypothèse sur la distribution sous-jacente).

    2) Il peut être utilisé en lieu et place d'une méthode paramétrique lorsque celle-ci conduit à des calculs inextricables.

    3) Il exige des calculs numériques très lourds (voir l'animation ci-dessous).

-----

La mise en œuvre du bootstrap repose sur :

    1) La sélection d'une statistique appropriée Z(X1, X2, ..., Xn) sur l'échantillon. Par exemple, si on veut estimer la médiane d'une distribution, la médiane de l'échantillon sera la statistique retenue. Plus généralement, on choisira pour Z un estimateur classique de la grandeur étudiée.

 

    2) La notion d' "échantillon bootstrap". A partir de l'échantillon {X1, X2, ..., Xn}, on procède à n tirages avec remise de façon à constituer une collection {X1, X2, ..., Xn} dans laquelle chaque observation figure maintenant avec une multiplicité comprise entre 0 et n, la somme des multiplicités étant bien entendu égale à n. La collection obtenue est, par définition, un échantillon bootstrap.

 

Le bootstrap procède alors de la façon suivante :

    1) Un grand nombre d'échantillons bootstrap sont créés.

    2) La statistique Z(X1, X2, ..., Xn) est calculée pour chacun des échantillons bootstrap.

    3) On extrait de l'histogramme des valeurs de Z deux informations :

Nous esquissons ici une justification du principe du bootstrap.

 _________________________________________________

 

L'animation suivante illustre le concept de bootstrap.

 

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

 

1) Sculptez la densité de probabilité de votre choix en cliquant n'importe où dans le cadre supérieur (y compris dans la partie verte).

 

2) Choisissez la grandeur étudiée. Dans cette petite application, ce choix est limité à :

Le grand trait vertical rouge descendant du bord supérieur du cadre matérialise la valeur de la grandeur retenue.

 

3) Choisissez le nombre de points de l'échantillon que vous allez créer.

 

4) Créez un échantillon à partir de la densité retenue en cliquant sur le bouton "New". Répétez l'opération jusqu'à obtenir un échantillon avec des caractéristiques qui vous conviennent.

Le trait vertical rouge au cœur de l'échantillon matérialise la valeur de la statistique Z (moyenne ou médiane) sur cet échantillon. C'est l'estimation "classique" de la grandeur étudiée.

 

5) Cliquez sur "Go" pour lancer la construction de l'histogramme bootstrap dans le cadre inférieur. Le nombre d'échantillons bootstrap est limité à 1000 (une valeur supérieure à celles habituellement retenues en pratique).

Le trait vertical rouge matérialise la moyenne de l'histogramme, c'est à dire l'estimation bootstrap courante de la grandeur étudiée.

 

Notez que pour des échantillons petits et/ou largement dispersés, l'histogramme bootstrap est irrégulier, voire est constitué de groupes compacts séparés par des vides. Ceci est particulièrement frappant pour le choix "Médiane". Pouvez-vous expliquer pourquoi ?

 

6) Cliquez sur "Pause" Les multiplicités des points de l'échantillon bootstrap courant s'affichent. En cliquant sur "Next", vous faites défiler manuellement les échantillons bootstrap, avec pour chacun les multiplicités des points.

Le trait vertical bleu au cœur de l'échantillon marque la valeur de la statistique pour l'échantillon bootstrap courant.

Cliquez sur "Resume" pour repasser en mode automatique.

___________________________________

 

Observez que pour le choix "Moyenne", l'estimation bootstrap converge vers la moyenne empirique (à l'erreur de quantification en pixels de l'affichage près).

Il n'en est pas de même pour la médiane : la médiane empirique et l'estimation bootstrap de la médiane sont des estimateurs différents de la médiane vraie.

 

Notez enfin que la densité de probabilité (inconnue) ne joue aucun rôle dans l'estimation bootstrap. Elle ne figure dans cette illustration que dans le but de rappeler que le bootstrap joue le rôle d'estimateur d'une grandeur définie sur cette densité.

Vous remarquerez néanmoins que l'estimation bootstrap est d'autant meilleure que l'échantillon retenu est "représentatif" de la densité de probabilité. Cette même remarque s'applique, bien sûr, à tout autre estimateur.

 

___________________________________________________

 

Voir aussi:

Estimation

Fonction de répartition

Téléchargez ce Glossaire