Animation interactive

Biais-variance  (Compromis)

Une expression qui recouvre le fait que l'introduction d'un biais peut conduire à une amélioration des performances d'un estimateur ou d'un modèle initialement sans biais.

Le compromis biais-variance pour un estimateur

Les performances d'un estimateur θ* d'un paramètre θ se mesurent par son Erreur Quadratique Moyenne (EQM), dont on montre qu'elle est donnée par :

EQM = Var(θ*) + Biais(θ*

 

Bien que l'absence de biais soit une propriété séduisante pour estimateur, elle ne garantit pas la plus faible valeur possible de l'EQM : celle-ci sera atteinte lorsque sera trouvé le meilleur compromis entre :

    * Le biais de l'estimateur,  et

    * Sa variance,

de façon à rendre minimale la valeur de l'expression ci-dessus.

 

De fait, on observe fréquemment que l'introduction d'un léger biais dans un estimateur initialement sans biais peut conduire à une réduction significative de sa variance, au point de provoquer une diminution de son EQM, et donc d'améliorer ses performances.

-----

Dans le Tutoriel ci-dessous, nous montrerons que des deux estimateurs classiques de la variance :

    * La variance empirique s² (biaisée)  :

s² = 1/n.Σi(xi - µ

    * Et la variance empirique "corrigée" S² (sans biais) :

S² = 1/(n - 1).Σi(xi - µ

c'est le premier qui, malgré son biais, a la plus faible EQM dans le cas d'une distribution normale.

De plus, nous identifierons un troisième estimateur de la variance qui s'avèrera être meilleur que les deux estimateurs classiques, malgré son biais qui est le plus important des trois.

Le compromis biais- variance pour un modèle

Le compromis biais-variance (ou "dilemme biais-variance") est une question très importante en modélisation de données. L'ignorer est une cause fréquente d'échec d'un modèle. Bien qu'il ait des racines théoriques profondes, il peut être expliqué en termes simples.

-----

Un modèle consiste en :

Par exemple, en régression polynomiale :

 L'architecture (ici, le degré) ayant été décidée par l'analyste, l'ajustement du modèle consiste à donner aux paramètres les valeurs appropriées (dans le cas de la régression, par la méthode des Moindres Carrés).

-----

Mais l'analyste doit préalablement fixer le degré du polynôme.

 

 

_______________________________________

 

Ces remarques résument le phénomène du "compromis biais-variance". Dans l'exemple de la régression polynomiale, il s'exprime ainsi :

Le degré du "meilleur" polynôme est donc "quelque part" entre ces deux extrêmes.

 

Ce phénomène n'est pas propre à la régression polyomiale. En fait, il est absolument universel, et se manifeste sous une forme ous sous une autre dans tous les types de modèle. Très généralement, le compromis biais-variance se traduit de la façon suivante :
 

  • Un modèle ayant trop peu de paramètres commet des erreurs importantes en raison de son biais important (pas assez de souplesse).
  • Un modèle ayant trop de paramètres commet des erreurs importantes en raison de sa variance importante (trop grande sensibilité aux détails de l'échantillon).
  • L'identification du meilleur modèle requiert donc, de la part de l'analyste, la recherche de la complexité optimale du modèle (nombre de paramètres).

 

 

Cette importante question est illustrée par une animation interactive que vous trouverez ici  () .

 

Certains aspects du compromis biais-variance sont également abordés à la page suivante () :

___________________________________________________________________

 

 

Tutoriel

 

Dans ce Tutoriel, nous comparons les performances (EQM) des deux estimateurs naturels de la variance de la distribution normale.

Nous montrons que l'estimateur "corrigé", et donc sans biais, a des performances inférieures à celles de l'estimateur non corrigé, lequel est pourtant biaisé.

-----

Nous reconnaissons ensuite que ces deux estimateurs appartiennent à une classe d'estimateurs, dont nous identifions le meilleur élément. Celui-ci s'avèrera avoir un biais encore supérieur à celui de l'estimateur non corrigé classique.

 

 

 

 

COMPROMIS BIAIS-VARIANCE

Comparaison des deux estimateurs classiques de la variance

EQM de la variance empirique "corrigée"

EQM de la variance empirique "non corrigée"

Biais

Variance

EQM

Comparaison des deux estimateurs

Un estimateur encore meilleur

Une classe d'estimateurs

Identification du meilleur estimateur de la classe

Propriétés du meilleur estimateur

Comparaison des propriétés des trois estimateurs

TUTORIEL

 

 __________________________________________________

 

Voir aussi:

Estimation

Erreur Quadratique Moyenne

Régression Ridge

Téléchargez ce Glossaire