|
Animation interactive |
Biais-variance (Compromis)
Une expression qui recouvre le fait que l'introduction d'un biais peut conduire à une amélioration des performances d'un estimateur ou d'un modèle initialement sans biais.
Les performances d'un estimateur q* d'un paramètre q se mesurent par son Erreur Quadratique Moyenne (EQM), dont on montre qu'elle est donnée par :
EQM = Var(q *) + Biais(q *)²
Bien que l'absence de biais soit une propriété séduisante pour estimateur, elle ne garantit pas la plus faible valeur possible de l'EQM : celle-ci sera atteinte lorsque sera trouvé le meilleur compromis entre :
* Le biais de l'estimateur, et
* Sa variance,
de façon à rendre minimale la valeur de l'expression ci-dessus.
De fait, on observe fréquemment que l'introduction d'un léger biais dans un estimateur initialement sans biais peut conduire à une réduction significative de sa variance, au point de provoquer une diminution de son EQM, et donc d'améliorer ses performances.
-----
Dans le Tutoriel ci-dessous, nous montrerons que des deux estimateurs classiques de la variance :
* La variance empirique s² (biaisée) :
s² = 1/n.Si(xi - µ)²
* Et la variance empirique "corrigée" s'² (sans biais) :
s'² = 1/(n - 1).Si(xi - µ)²
c'est le premier qui, malgré son biais, a la plus faible EQM dans le cas d'une distribution normale.
De plus, nous identifierons un troisième estimateur de la variance qui s'avèrera être meilleur que les deux estimateurs classiques, malgré son biais qui est le plus important des trois.
Le compromis biais-variance (ou "dilemme biais-variance") est une question très importante en modélisation de données. L'ignorer est une cause fréquente d'échec d'un modèle. Bien qu'il ait des racines théoriques profondes, il peut être expliqué en termes simples.
-----
Un modèle consiste en :
Par exemple, en régression polynomiale :
L'architecture (ici, le degré) ayant été décidée par l'analyste, l'ajustement du modèle consiste à donner aux paramètres les valeurs appropriées (dans le cas de la régression, par la méthode des Moindres Carrés).
-----
Mais l'analyste doit préalablement fixer le degré du polynôme.
_______________________________________
Ces remarques résument le phénomène du "compromis biais-variance". Dans l'exemple de la régression polynomiale, il s'exprime ainsi :
Le degré du "meilleur" polynôme est donc "quelque part" entre ces deux extrêmes.
Ce phénomène n'est pas propre à la régression polyomiale.
En fait, il est absolument universel, et se manifeste sous une forme ous sous
une autre dans tous
les types de modèle. Très généralement, le compromis biais-variance
se traduit de la façon suivante :
|
Cette importante question est illustrée par une animation
interactive que vous trouverez ici (
) .
Certains
aspects du compromis biais-variance sont également abordés à la page suivante (
) :
___________________________________________________________________
|
Tutoriel |
Dans ce Tutoriel, nous comparons les performances (EQM) des deux estimateurs naturels de la variance de la distribution normale.
Nous montrons que l'estimateur "corrigé", et donc sans biais, a des performances inférieures à celles de l'estimateur non corrigé, lequel est pourtant biaisé.
-----
Nous reconnaissons ensuite que ces deux estimateurs appartiennent à une classe d'estimateurs, dont nous identifions le meilleur élément. Celui-ci s'avèrera avoir un biais encore supérieur à celui de l'estimateur non corrigé classique.
COMPROMIS BIAIS-VARIANCE
|
Comparaison des deux estimateurs classiques de la variance EQM de la variance empirique "corrigée" EQM de la variance empirique "non corrigée" Biais Variance EQM Comparaison des deux estimateurs Un estimateur encore meilleur Une classe d'estimateurs Identification du meilleur estimateur de la classe Propriétés du meilleur estimateur Comparaison des propriétés des trois estimateurs |
||
|
TUTORIEL |
||
__________________________________________________
Voir aussi: