ESQUISSE D'UNE JUSTIFICATION DU BOOTSTRAP


 Dans cette section, nous raisonnons sur une variable continue ayant une densité de probabilité. Les raisonnements seraient analogues pour d'autres types de distribution.

 

Le bootstrap repose sur un enchaînement d'idées simples :

    1) La densité de probabilité p(x) ayant donné naissance à l'échantillon est inconnue. Mais on peut raisonnablement espérer que l'échantillon soit représentatif de cette distribution, c'est à dire il y ait "beaucoup d'observations" dans les régions de forte densité de probabilité, et "peu d'observations" dans les régions de faible densité de probabilité. Cet espoir découle directement de la définition même de la densité de probabilité.

L'échantillon ne serait donc alors qu'une image dégradée "en pointillé" de la vraie densité de probabilité, mais qui en préserve les caractéristiques essentielles (voir figure ci-dessous).

 

    2) L'échantillon étant discret, mais la densité de probabilité étant continue, il n'est pas possible de les comparer directement. Par contre, la comparaison devient possible si l'on passe aux fonctions de répartition: on peu raisonnablement espérer que la fonction de répartition empirique F* de l'échantillon soit proche de la fonction de répartition réelle F(x), dans un sens qu'il est possible de quantifier.

La fonction de répartition empirique F* est très facile à construire : elle est en forme d' "escalier" dont les marches sont toutes de hauteur 1/n (où n est le nombre d'observations de l'échantillon), les "marches" étant positionnées sur les observations.

 

 

 

    3) Le bootstrap dit alors "La vraie densité de probabilité est inaccessible, de même que la vraie fonction de répartition. Mais nous avons à notre disposition une approximation de la vraie fonction de répartition F, à savoir F*. Donc tout ce que nous pourrions faire si nous connaissions F, nous pouvons le faire en utilisant en lieu et place de F son approximation F*.".

 

    4) Oublions le bootstrap pour un moment. Supposons que nous voulions estimer une caractéristique θ quelconque d'une densité de probabilité p(x) connue (par exemple, un de ses moments), grandeur pour laquelle nous avons identifié un estimateur Θ . Mais, par malchance, la forme mathématique de  p(x) et/ou de Θ ne permettent pas de mener à leur terme les calculs théoriques relatifs à la distribution de θ.

 

Est-il néanmoins possible de se faire une idée de la distribution de θ?

 

Oui, en procédant par simulation.

La distribution de Θ n'est autre que l'histogramme de Θ(X1, X2, ..., Xn)pour une infinité de valeurs  obtenues sur une infinité d'échantillons tirés de p(x). Remplaçons "infinité" par "très grand nombre", et nous obtenons une méthode pratique d'estimation de la distribution de Θ :

    1) On tire un très grand nombre d'échantillons issus de p(x).

    2) Pour chaque nouvel échantillon {X1, X2, ..., Xn}, on calcule la valeur estimée de θ, soit  θ* = Θ(X1, X2, ..., Xn).

    3) On trace l'histogramme des valeurs θ*, qui est une estimation de la distribution de θ.

    4) De cet histogramme, on extraiera :

        * la moyenne, qui sera notre valeur simulée de l'espérance de Θ.

        * la variance, qui sera notre valeur simulée de la variance de Θ.


La procédure que nous venons de décrire est un cas particulier d'une famille de techniques de simulation probabiliste connue sous le nom général de "Méthode de Monte-Carlo". C'est exactement la procédure suivie dans certaines de nos animations interactives (voir p. ex. Théorème Central Limite).

 

5) Il existe plusieurs méthodes permettant de tirer un échantillon de n observations indépendantes d'une densité de probabilité p(x). Une d'entre-elles se présente de la façon suivante :

    * On calcule (ou on tabule numériquement) la fonction de répartition F(x), qui est, rappelons-le, une fonction monotone croissante de 0 à 1.

    * On tire un  nombre "y" au hasard dans l'intervalle [0, 1].

    * On identifie l'unique valeur "x" telle que  F(x) = y. C'est la première observation de notre échantillon.

    * On itère la procédure n -1 autres fois pour obtenir un échantillon de n observations.


Cette méthode est justifiée par le théorème dit de "Transformation par Fonction de Répartition" (voir ici).

 

 

 6) Revenons maintenant au bootstrap. Il propose simplement d'estimer la distribution de Θ par une simulation de Monte-Carlo en utilisant  la méthode précédente mise en œuvre sur la fonction de répartition F*, notre meilleure estimation de la vraie (et inconnue) fonction de répartition F.

    * Il est clair que toute observation tirée de F* par la méthode précédente sera une observation de l'échantillon original {X1, X2, ..., Xn}.

    * Quelle est alors la probabilité pour que la prochaine observation soit l'observation n°i ? L'égalité de la hauteur des n marches montre que cette probabilité est égale à 1/n pour tout i.

 

Donc, dans ce cas particulier, nous avons le choix entre deux  méthodes équivalentes pour tirer un échantillon :

    * Utiliser la méthode "de la fonction de répartition",

    * Ou, plus simplement, affecter la probabilité 1/n à chacune des observations et désigner successivement n observations au hasard, c'est à dire, en fin de compte, procéder à n tirages avec remise depuis l'échantillon original.

________________________________________________

 

Ainsi sont justifiées les idées de base du bootstrap, à savoir :

    * La notion d' "échantillon bootstrap".

    * Le recours à un estimateur classique Θ pour construire l'histogramme bootstrap.

    * L'utilisation de la moyenne et de la variance de cet histogramme comme estimations de l'espérance et de la variance de Θ.

 

Nous sommes donc maintenant convaincus que le bootstrap produit, à partir d'un échantillon, une estimation "plausible" de toute quantité définie sur la densité de probabilité à l'origine de l'échantillon. C'est donc bien une technique d'estimation. Mais à ce niveau d'explications, nous ne savons rien des propriétés de l'estimateur bootstrap dans toute sa généralité, par exemple son biais éventuel. Cette question ne reçoit évidemment pas de réponse unique: celle-ci dépend de la grandeur que l'on cherche à estimer par bootstrap, ainsi que de p(x). En tout état de cause, ce sujet, et bien d'autres relatifs au bootstrap, sont difficiles, se prêtent mal à une analyse théorique, et suscitent parfois des controverses. Ils ne peuvent être abordés dans ce simple glossaire.


Notons que la même réserve peut être émise pour tout autre technique d'estimation, comme par exemple l'estimation par Maximum de Vraisemblance. Le principe d'estimation par la méthode du Maximum de Vraisemblance est plausible, mais reste arbitraire tant que des résultats théoriques complémentaires (en particulier l'efficacité asymptoptique) ne viennent pas justifier a posteriori le principe.

Pourtant, grâce à sa simplicité conceptuelle et à la disponibilité d'importantes puissances de calcul bon marché, le bootstrap a maintenant trouvé sa place dans nombre de logiciels commerciaux.

Nous nous devons cependant d'insister sur les dangers d'une croyance aveugle dans les oracles du bootstrap. Il est facile de trouver des analyses poussées (souvent expérimentales) des résultats obtenus par bootstrap dans telle ou telle situation, et nous ne saurions trop recommander à l'utilisateur néophyte de s'y référer avant d'interpréter hâtivement des résultats obtenus automatiquement par des logiciels.

Téléchargez ce Glossaire