ANIMATION INTERACTIVE: EQM et DILEMME BIAIS-VARIANCE
Cette animation illustre les deux concepts de :
1) Erreur Quadratique Moyenne (EQM) de la prédiction d'un modèle en un point de l'espace des prédicteurs (Mode "Local" de l'animation)..
2) "Compromis biais-variance", qui porte sur la moyenne des EQM des prédictions sur l'ensemble de l'espace des prédicteurs (Mode "Global" de l'animation).
|
|
L'animation s'ouvre en mode "Local".
Elle montre, dans le cadre supérieur :
1) Une droite rouge qui est la partie déterministe d'un processus générateur de données.
2) Un échantillon tiré de ce processus.
3) Une droite noire, qui est la Droite des Moindres Carrés calculée sur cet échantillon.
4) Un point x0 de l'espace de l'unique prédicteur.
Mode local : EQM de la prédiction d'un modèle en un point
Influence de la position du point de mesure
* Cliquez sur "Go". Dans le cadre inférieur gauche s'affichent le biais, la variance et l'EQM du modèle de Régression Linéaire Simple (RLS) en x0. Remarquez que le biais converge vers 0 avec le temps, en accord avec la propriété de la RLS d'être en tout point du domaine du prédicteur un modèle sans biais sous les conditions standard qui sont ici vérifiées.
* Avec votre souris, déplacez le point de mesure x0 jusqu'à l'extrémité droite du domaine de x (il n'est pas nécessaire d'interrompre l'animation). Le biais reste nul, mais la variance augmente, ainsi que l'EQM, en accord avec les propriétés de la RLS.
* Déplacez maintenant x0 vers le centre du domaine de x : la variance du modèle de RLS diminue, et donc également l' EQM de la prédiction du modèle en ce point. On montre que la variance passe par un minimum quand x0 est le barycentre des points de mesure.
Influence du bruit
Augmentez le niveau de bruit ("variance des erreurs" dans la terminologie de la régression). Le schéma précécent se reproduit, avec des niveaux de variance et d'EQM plus élevés : toutes choses égales par ailleurs, les performances du modèle se dégradent quand les erreurs de mesure augmentent.
Influence de la taille de l'échantillon
Augmentez la taille de l'échantillon. Le schéma précécent se reproduit, avec des niveaux de variance et d'EQM plus faibles : toutes choses égales par ailleurs, les performances du modèle s'améliorent quand on dispose de plus de données.
Pour éviter d'être gêné par le clignotement continuel de
l'échantillon, cliquer sur le bouton "Sample" du cadre
"Mask".
Influence de l'écart à la linéarité
Ramenez "Size" à 10, et "Noise" à 5.
Augmentez d'une unité la convexité ("Convex.") de la courbe rouge. Le processus ayant généré les données n'est plus linéaire, et le modèle de RLS souffre d'un biais. La valeur de ce biais dépend de x0. Vérifiez que :
* Dans la partie centrale, le biais est négatif (signe "-" rouge à gauche de la barre "Biases").
* Il est positif aux extrémités du domaine de x.
* Il s'anule en deux points intermédiaires.
La variance du modèle est peu affectée par la convexité de la courbe.
-----
Ainsi, quand les données ont été générées par un processus non linéaire, les performances du modèle de RLS se dégradent, essentiellement en raison de l'apparition d'un biais. La valeur de ce biais dépend fortement de la position du point de mesure x0.
Influence de la complexité du modèle
L'apparition d'une convexité suggère de scinder le domaine de x en deux, et de procéder à deux RLS, chacune sur une moitié du domaine de x (une technique classique connue sous le nom de "Régression Linéaire par Morceaux").
* Dans la boîte "Models", cliquez sur le bouton numéroté "2". Au modèle de RLS, toujours présent, vient s'ajouter maintenant un modèle composé de deux droites bleues de RLS, chacune opérant sur une moitié du domaine de x. Un simple examen visuel permet d'espérer que ce nouveau modèle sera capable de prendre en compte la convexité de la courbe. Mais les choses ne sont pas si simples que ça.
-----
Passez au niveau 2 de Convexité afin de rendre les phénomènes un peu plus marqués. Positionnez x0 au point où le modèle de RLS a son biais (négatif) le plus grand, aux environs du centre du domaine de x.
* Le modèle à un seul segment (noir) est alors effectivement sévèrement handicappé par son biais, et sa variance, bien que plus faible que celle du modèle à deux segments (bleu), ne parvient pas à rétablir l'équilibre : le meilleur modèle est effectivement le modèle à 2 segments.
Par ailleurs, nous sommes proches d'une extrémité d'un des segments bleus, et donc dans une région où le modèle à deux segments a une variance plutôt élevée, mais ceci ne suffit pas à détruire la supériorité de ce modèle.
Il en est de même aux extrémités du domaine de x, où le modèle de RLS présente un fort biais (positif).
Ceci se vérifie même en augmentant la taille de l'échantillon, l'augmentation de ce paramètre n'ayant pas d'influence sur les bais, et une influence bénéfique du même ordre de grandeur sur les deux variances.
* Par contre, si nous déplaçons x0 en un point où le biais du modèle à segment unique est nul, ce dernier reprend l'avantage : sa variance est du même ordre de grandeur que celle du modèle à deux segments, mais ce dernier est maintenant handicappé par son biais.
Pour connaître la vraie valeur d'une grandeur, positionner la souris sur la barre
horizontale correspondante.
Nous voyons donc que la passage de "1 segment" à "2 segments" est une solution dont l'efficacité dépend du point de mesure choisi.
----------
Qu'en est-il si on passe à un modèle à 3 segments ?
* Cliquez sur le bouton "3" du cadre "Models", en maintenant les deux autre modèles sélectionnés. Restez au niveau de convexité 2, et avec un bruit modéré de niveau 5.
* Explorez le domaine du régresseur x. Vous constaterez que dans les régions proches du centre, le biais du modèle à segment unique est tellement important que son EQM est toujours le plus élevé des trois dans cette région.
* Déselectionnez le Modèle 1 afin de faciliter la comparaison entre les Modèles 2 et 3.
Pour améliorer la lisibilité des diagrammes
de biais, variance et d'EQM, cliquer sur les fonds jaunes sur lesquels
s'affichent les barres horizontales lorsque celles-ci sont trop courtes.
Explorons plus finement la région centrale :
* Lorsque x0 est proche du milieu du segment vert central, le biais et la variance du Modèle 3 sont tous deux inférieurs à ceux du Modèle 2, et il est alors largement meilleur que celui-ci.
* Mais déplacez x0 vers la droite de façon à ce qu'il soit à la fois proche du milieu du segment bleu, et proche de l'extrémité d'un segment vert. La biais du Modèle 2 est alors faible, la variance du Modèle 3 augmente fortement, et le Modèle 2 reprend l'avantage.
* Sélectionnez à nouveau le Modèle 1 (en laissant les deux autres modèles sélectionnés). Dans les deux cas de figure précédents, il reste le plus mauvais des trois en raison de sont fort biais. Mais positionnez x0 près d'un point de biais nul pour le Modèle 1, et il redevient à nouveau le meilleur (dans un région cependant très petite), malgré une variance assez élevée.
__________________________________________
La conclusion de cette première partie est que des modèles de complexités différentes ont des comportement très différents selon la région de l'espace du ou des prédicteurs dans lequel les modèles sont utilisés. En particulier, le meilleur modèle (EQM le plus faible) dépend fortement de la région de l'espace choisi pour une nouvelle mesure.
Devant un jeu de données, l'analyste n'a aucun moyen de visualiser les phénomènes observés ci-dessus, et il souhaite donc avoir un critère de qualité global d'un modèle. Ce critère sera l'EQM moyen, qui est la moyenne de l'EQM en tous les points de l'espace, pondérée par la densité de probabilité du vecteur des régresseurs.
Pour des raisons de simplicité, nous supposerons cette densité uniforme sur le domaine de x. Autrement dit, nous supposerons que x0 est une v.a. uniformément distribuée sur le domaine de x.
______________________________________________________
Mode global : EQM moyen d'un modèle sur l'espace du prédicteur, compromis biais-variance
Cliquez sur "Reset", puis sur "Local" en haut et à gauche de l'animation. Celle-ci passe alors en mode "Global", et x0 disparaît.
* L'affichage "Biases" montre maintenant le biais moyen d'un modèle sur l'espace.
* L'affichage "Variances" montre maintenant la variance moyenne d'un modèle sur l'espace.
* L'affichage "MSE" montre maintenant l'EQM moyen d'un modèle sur l'espace.
L'EQM moyen n'est pas égal à la Variance Moyenne
augmentée du carré du Biais Moyen, mais à la moyenne de cette quantité calculée
sur chacun des points de l'espace.
* Cliquez sur "Go". Les affichages décrivent maintenant les performances moyennes du modèle de RLS dans les conditions standard. Faites varier le niveau de bruit et la taille de l'échantillon, et observez que les performances varient comme attendu.
Revenez aux réglages par défaut ("Noise" à 5, et "Size" à sa valeur minimale 10).
* Tout en conservant le générateur données linéaire ("Convex." égale à 0), ajoutez maintenant le Modèle 2. Son biais moyen est bien sûr nul, mais sa variance moyenne est sensiblement supérieure à celle du Modèle 1, car chacune des moitiés de ce modèle ne prend en compte qu'une partie des données.
Ajoutez par acquis de conscience le Modèle 3, et notez que, pour la même raison, celui-ci est encore plus mauvais que le Modèle 2.
* Passez maintenant au niveau de Convexité à 1. Cette légère modification change la situation radicalement.
- Le biais moyen du Modèle 1 augmente fortement en valeur absolue (notez que tous les modèles ont un biais moyen négatif malgré des biais locaux fortement positifs aux extrémités des segments).
- Les variances moyennes étant peu altérées par l'apparition d'une légère convexité, le Modèle 2 devient le meilleur, en raison de sa capacité à épouser la convexité de la courbe (faible biais moyen) et sa variance modérée.
- Le Modèle 3 reste le plus mauvais en raison.de sa forte variance.
Cette configuration est représentative du compromis biais-variance :
|
- Le modèle le plus simple (Modèle 1) n'est pas bon en raison de son fort biais. Sa faible variance n'arrive pas à compenser la forte valeur de son biais, et l'EQM moyen est élevé. - Le modèle le plus complexe (Modèle 3) n'est pas bon en raison de sa forte variance. Son faible biais n'arrive pas à compenser la forte valeur de sa variance, et l'EQM moyen est élevé. - Le meilleur modèle (Modèle 2) est "entre les deux". Il n'a ni le plus faible biais, ni la plus faible variance, mais son EQM moyen est le plus faible en raison du bon compromis trouvé entre ces deux quantités. |
* Augmentez d'un cran la Convexité, qui passe maintenant au niveau 2. Le biais moyen du Modèle 1 augmente encore, et ce modèle devient maintenant le plus mauvais. Le meilleur reste le Modèle 2, et le Modèle 3 est entre les deux.
Le Modèle 1 est maintenant définitivement hors course. Déselectionnez le, et augmentez la lisibilité des diagrammes de variance et d'EQM en cliquant sur les fonds jaunes sur lesquels s'affichent les barres.
* Montez la Convexité jusqu'au niveau maximal (3). Vous disposez maintenant de deux paramètres pour modifier les EQM des Modèles 2 et 3 : le niveau de bruit, et la taille de l'échantillon.
Observez que pour une taille d'échantillon donnée, les performances du Modèle 3 se dégradent plus vite que celles du Modèle 2 quand le bruit augmente, en raison de l'augmentation plus rapide de sa variance. Pour chaque taille d'échantillon, cherchez le niveau de bruit pour lequel les deux modèles ont à peu près les mêmes valeurs d'EQM.
__________________________________________________
En conclusion, lorsque l'on considère les performances d'un modèle (EQM des prédictions) intégrées sur le domaine des régresseurs, il apparaît un compromis entre le biais et la variance de ce modèle. Les modèles trop simples ont un fort biais, les modèles trop complexes ont une variance trop élevée, et le meilleur modèle a une complexité comprise entre le deux.
La complexité optimale dépend fortment de :
* La nature du processus ayant généré les données (niveau de non linéariité dans l'exemple ci-dessus),
* Le niveau de bruit (variance des erreurs),
* La taille de l'échantillon.
En général, le seul moyen d'identifier la complexité optimale est de comparer des modèles de diverses complexité par des méthodes de validation croisée ou de bootstrap.
______________________________________
Remarques
1) Le compromis biais-variance a été clairement illustré par des données qui sont ici toujours de dimension 1. Ce phénomène n'est donc pas directement lié à la dimension de l'espace des données (nombre de variables), mais plutôt à la complexité des modèles. Cependant, beaucoup de modèles ont un nombre de paramètres qui dépend directement de la dimension des données, l'exemple le plus naturel étant celui de la Régression Linéaire Multiple. Les phases préliminaires de sélection de variables et éventuellement de réduction de dimensionalité sont alors des méthodes efficaces de réduction du nombre de paramètres du modèle tout en perdant un minimum d'information sur les données.
2) Dans la famille de modèles de "Régression Linéaire par Morceaux", le nombre de paramètres augmente de 2 unités en passant d'un modèle au modèle suivant (chaque modèle partiel est caractérisé par une pente et une ordonnée à l'origine).
Si nous avions illustré le compromis biais-variance par une régression polynomiale, le nombre de paramètres aurait augmenté d'une unité en passant d'un modèle au suivant (augmentation du degré du polynôme), ce qui aurait permis un réglage plus fin de la complexité. Il en est de même en Régression Linéaire Multiple.
Mais la complexité du modèle peut aussi être rendue continue par les méthodes de pénalisation de la Somme des Carrés des Résidus, la plus connue étant la Régression Ridge. La complexité du modèle est alors un nombre (réel) plus petit que le nombre (entier) de paramètres : c'est le "nombre effectif de paramètres", dont valeur est déterminée par la valeur d'un paramètres supplémentaire (le "paramètre ridge").