HISTOGRAMME ET LE COMPROMIS BIAIS-VARIANCE

 

Avant de lire ce texte, assurez-vous d'avoir lu celui se rapportant à l'histogramme.

 

Ce qui suit décrit le compromis biais-variance appliqué à l'histogramme. Ce texte n'a pas d'utilité pratique, l'histogramme étant surtout utilisé pour son interprétation graphque.

 

Normalisation de l'histogramme

Soit ni le nombre de points dans la case i. L'aire de la case est ai = nix. L'aire total de l'histogramme est :

 AΣi ai. = Σi nix = Δx.Σi ni = Δx.n

n est la taille de l'échantillon.

Mais nous voulons comparer l'histogramme à p(x), dont l'intégrale est égale à 1. Nous normalisons donc l'histogramme en divisant toutes les hauteurs par A. L'aire de l'histogramme normalisé est maintenant égale à 1.

L'histogramme comme estimateur

Nous avons mentionné que la hauteur d'une case peut être utilisée comme estimation de p(x0) pour tout x0 de la case. On peut donc se demander quelles sont les valeurs :

de cet estimateur.

 

Nous allons donc entrer un peu plus dans le détrail de fonctionnement de l'histogramme.

Distribution du nombre d'observation dans une case

Si un autre histogramme avait été tiré de p(x) (les positions et largeur des cases restant inchangées), la répartition des observations aurait été différente, et donc également les hauteurs des cases. La hauteur d'une case est donc une variable aléatoire. Quelle est sa distribution ?

Notons Pi l'aire sous la courbe p(x) dans la région délimitée par la case i. Une nouvelle observation a la probabilité Pi de tomber dans la case i, par définition de la fonction de densité de probabilité (ou fdp).

 

 

 

Dans l'illustration ci-dessus, Pi est la zone hachurée verte.

 

Si n observations sont tirées de p(x), le nombre d'observations de la case i suivra la distribution binomiale B(n, Pi).

Biais de l'histogramme

Nous calculons maintenant la biais de la hauteur de la case i, considérée comme estimateur de p(x0), où x0 est recouvert par la case i. Par définition :

Biaisi(x0) = Espérance[Estimation - Vraie Valeur] = E[Hauteuri - p(x0)] = E[Hauteuri] - p(x0)

La moyenne de B(n, Piest nPi, et donc le nombre moyen d'observations dans la case i est nPi, et la ahteur moyenne de la case normalisée est nPi/A. Donc, pour tout x0 recouvert par la case i, le biais de l'estimateur Hauteuri est :

Biaisi = nPi/A - p(x0) = Pix - p(x0)

 

Ce biais est-il grand ou petit ?

En résumé :

"Un histogramme à cases larges est fortement biaisé, alors que le biais d'un histogramme à cases étroites est négligeable ."

Variance de l'histogramme

Quelle est la variance de l'estimation de p(x0) ? La variance de B(n, Piest nPi(1 - Pi), et la variance de la hauteur normalisée de la case i est donc :

Var(Hauteuri) = nPi(1 - Pi) / (Δx.n)² = Pi(1 - Pi) / n.(Δx

Cette variance est-elle grande ou petite ?

Var(Hauteuri) ~ {p(x0).Δx (1 - p(x0).Δx)}/ n.(Δx)² = {p(x0).(1 - p(x0).Δx)}/ nx ~ p(x0) /nx

La variance est donc élevée, et tend même vers l'infini quand Δx tend vers 0 (les hauteurs des cases non vides tendent vers l'infini quand Δx tend vers 0 de façon à maintenir l'aire de l'histogramme égale à 1).

 

En résumé :

"Les histogrammes à larges cases ont une faible variance, alors que les histogrammes à cases étroites ont une variance élevée."

Le compromis biais-variance

Il apparaît donc que quand la largeur de case Δx change, le biais de l'estimateur Heighti et sa variance vont toujours en sens inverses. Le praticien doit donc utiliser Δx comme un "bouton de réglage" pour ajuster le compromis entre le biais et la variance comme bon lui semble. Ceci n'est qu'un exemple du compromis biais-variance, (ou dilemme biais-variance), un problème universel et fondamental de la modélisation de données.

 

Comment Δx doit-il être choisi ?

Erreur quadratique moyenne de l'histogramme

Si l'histogramme n'est construit que pour obtenir une représentation visuelle approximative de p(x), de simples essais et erreurs montreront que :

 

Même sans aucune considération théorique, il est donc clair que l'image la plus fidèle de p(x) sera obtenue pour une certaine valeur de Δx, et que des valeurs plus grandes ou plus petites de ce paramètre conduiront à des images dégradées et moins porteuses d'information.

-----

Si maintenant nous insistons pour utiliser l'histogramme comme estimateur de densité de probabilité, nous voulons que ses estimations soient les plus précises possible. La mesure ordinaire de qualité d'un estimateur est son Erreur Quadratique Moyenne, la moyenne du carré de la différence entre les estimations et la valeur vraie :

Mean Square Error = E[(Estimate - True Value)²]

On montre facilement que :

Erreur Quadratique Moyenne = Biais² + Variance

et nous pourrions maintenant utiliser cette expression générale dans le cas particulier de l'histogramme.

Mais il n'est pas besoin de se lancer dans des calculs explicites pour arriver aux conclusions suivantes :

Nous sommes donc dans un cercle vicieux, puisque connaître le meilleur estimateur de p(x) exige de connaître p(x), et si nous connaissions cette distribution, il n'y aurait pas besoin de l'estimer.

_____________________________

 

En conclusion, l'histogramme, considéré comme modèle, exhibe le phénomène universel du compromis biais-variance. L'architecture de l'histogramme est spécifiée par le nombre de cases dans le domaine de x, et la description complète de l'histogramme est donnée par la liste des hauteurs de ses cases.

La théorie montre qu'il existe une largeur optimale de case, mais que celle-ci ne peut être calculée. Elle pourrait cependant être estimée par des techniques de validation (bien que nul ne songerait à se donner se mal pour le modeste histogramme).

 

Le compromis biais-variance est universel. Il se présente sous diverse formes pour toute modélisation.

Téléchargez ce Glossaire