|
Animation interactive |
LE COMPROMIS BIAIS-VARIANCE
Vous trouverez sur cette page des informations complémentaires sur le compromis biais-variance.
______________________________________________
Prenons comme exemple la régression. Les données sont issues du processus suivant :
y = f(x1, x2 , ..., xp) + ε
où f est une fonction déterministe, et ε est aléatoire de moyenne nulle. Le modèle de régression y* = f *(x1, x2 , ..., xp) est construit à partir de l'échantillon. Soit x0 un point de l'espace des données. On espère que f *(x0) est un nombre proche de y0 = f(x0), la vraie valeur de la fonction de régression.
En raison du caractère aléatoire de ε, le modèle dépend de l'échantillon utilisé pour le construire. Un autre échantillon aurait conduit à un modèle différent, et donc à une prédiction en x0 différente. La prédiction du modèle en x0 est donc une variable aléatoire.
Dans la terminologie de la Statistique, un modèle de régression positionne donc en chaque point x0 de l'espace un estimateur de y0, la valeur de la vraie fonction de régression en ce point. Cet estimateur est noté f *(y , x = x0), ou plus brièvement f *0.
Nous portons maintenant notre attention sur ce qui se passe en cet unique point x0 (bien qu'il soit possible d'établir une théorie plus complète portant sur l'espace entier, et qui prend alors en compte la distribution de probabilité inconditionnelle p(x)).
f *0 est "bon" estimateur si ses réalisations sont proches de la valeur vraie y0 dans un sens probabiliste, c'est à dire, par exemple, si son Erreur Quadratique Moyenne (EQM) :
EQM = E[( f *0 - y0)²]
est faible.
On montre facilement que :
EQM = Biais² + Variance
où "Biais" et "Variance" sont ceux de la prédiction du modèle, considéré comme un estimateur de y0.
L'origine des erreurs du modèle est donc double :
L'examen d'un échantillon ne permet jamais de décider de façon certaine quelle doit être l'architecture utilisée pour la construction du modèle. L'analyste doit donc considérer plusieurs architectures candidates, et retenir celle qui conduira au modèle produisant les prédictions les plus précises sur des données nouvelles.
Par exemple, dans le cas de la régression, il est courant d'avoir à sa disposition un très grand nombre de variables indépendantes (les régresseurs) susceptibles d'entrer dans le modèle. Mais chaque sous-ensemble de régresseurs peut donner naissance à un modèle, et on est donc confronté au choix d'un modèle dans une famille de modèles. Au point x0, chacun de ces modèles aura son propre biais, sa propre variance, et donc son propre niveau d'erreur (EQM).
Le principe du "compromis biais-variance" énonce que, dans cette famille :
Il est impossible d'identifier avec certitude ce modèle d'erreur minimale, car pour ceci, il faudrait connaître la vraie fonction de régression f(x). Mais il est possible d'identifer des modèles qui sont probablement de bonne qualité. Ceci est l'objet de la "sélection de modèle" (voir ci-dessous).
On peut classer les modèles d'une même famille par ordre croissant du nombre de paramètres. Ce nombre est parfois appelé la complexité d'un modèle. Le compromis biais-variance dit alors que :
Le "meilleur" modèle aura donc une complexité ni trop faible ni trop élevée. Le praticien devra trouver le compromis adéquat entre biais et variance à l'intérieur d'une même famille de modèles. Pour cela, le nombre de paramètres sera un de ses moyens de réglage les plus importants.
La vraie performance d'un modèle est celle qui sera observée sur des données nouvelles et n'ayant pas servi à sa construction. Les performances observées sur les données dites d' "apprentissage" ne sont pas significatives.
Par exemple, dans le cas de la régression polynomiale, les polynômes de haut degré peuvent approcher de plus près les points de l'ensemble d'apprentissage que les polynômes de bas degré, ce qui conduit à une erreur quadratique plus faible. En fait, il est bien connu que pour un échantillon de taille n, un polynôme de degré n passera exactement par tous les points de l'échantillon, ce qui conduit à une erreur nulle sur l'ensemble d'apprentissage. Mais entre ces points, le polynôme passe par des oscillations très grandes et qui dépendent fortement des positions exactes des points, ce qui conduit à un modèle ayant une très grande variance et des erreurs de prédiction considérables.
Ce point ne doit jamais quitter l'esprit du praticien : même modérée, la surparamétrisation peut provoquer une croissance explosive de la variance du modèle. Comme ce phénomène est masqué par d'excellentes performances sur les données d'apprentissage, et ne devient visible que lorsqu'il est trop tard (c'est à dire, lorsque que l'on alimente le modèle ave des données nouvelles), il tend à être quelque peu ignoré par le néophyte en modélisation de données.
Nous avons donné la régression comme exemple illustrant le compromis biais-variance. Mais ce phénomène est absolument universel et se manifeste sous des formes diverses dans tous les types de modélisation. Donnons quelques exemples :
La Régression
Linéaire Multiple (RLM) n'a pas de degré ajustable comme la régression polynomiale.
La surface de réponse est toujours un hyperplan, et n'est donc pas soumise
aux oscillations que nous venons de mentionner pour les polynômes. On pourrait donc espérer
qu'en raison de sa "rigidité", la RLM échappe au risque de surajustement
par surparamétrisation. Mais tel n'est pas le cas.
Un des problèmes principaux
de la RLM est le choix du "meilleur" sous-ensemble de régresseurs.
Lorsque l'on ajoute des régresseurs au modèle, on ajoute également des paramètres.
L'ajustement de l'hyperplan aux données d'apprentissage s'en verra toujours amélioré, mais
un trop grand nombre de régresseurs finira par provoquer une dégradation
de la qualité des prédictions du modèle (surajustement).
La Régression Ridge est une variante de la RLM qui introduit artificiellement un biais dans les paramètres du modèle, et donc également dans ses prédictions. On attend de ce biais qu'il réduise la variance des paramètres et des prédictions.
L'importance du biais est controlée par la valeur attribuée au "paramètre ridge", dont le rôle est de réduire le "nombre effectif de paramètres", qui est alors inférieur au nombre de régresseurs.
Le paramètre ridge est donc un moyen commode de réglage du compromis biais-variance.
Les fonctions discriminantes linéaires de l'Analyse Discrimininante standard sont les solutions optimales lorsque les matrices de covariance des classes sont identiques, une situation académique. Qu'en est-il dans le cas général ? Doit on alors systématiquement recourir à des fonctions discriminantes quadratiques, comme le suggère la théorie ? Pas nécessairement. Si l'on dispose de peu de données, il est possible que le modèle linéaire fournisse des prédictions plus précises que le modèle quadratique, car il contient moins de paramètres que ce dernier.
Jusqu'à quelle profondeur un Arbre de Décision doit-il être développé ?
Une particularité des Arbres de Décision est que l'ajustement de la complexité du modèle se fait souvent a posteriori, par un procédé dit d' "élagage". L'arbre est dans un premier temps développé jusqu'à une profondeur que l'on sait exagérée, puis les "branches " jugées superflues sont éliminées jusqu'à l'obtention d'un arbre de profondeur adéquate.
Un histogramme est un outil très utile pour la visualisation d'une distribution représentée par un échantillon. Mais c'est aussi un modèle (pas très bon) d'estimation de densité de probabilité. En tant que modèle, il est également soumis au compromis biais-variance. Ici, les paramètres sont les hauteurs des cases, et le nombre de paramètres est le nombre de cases.
Vous trouverez ici
une animation interactive illustrant le compromis biais-variance pour
les histogrammes.
La liste est sans fin. Tous les types de modèles sont soumis au compromis biais-variance. Plus précisément, tout modèle appartient à une famille de modèles, certains ayant un fort biais mais une faible variance, d'autres ayant un faible biais mais une forte variance, le "meilleur" modèle se trouvant quelque part entre les deux.
Parmi les modèles évoqués ci-dessus :
Ces deux types de modèle sont bien entendu sensibles au compromis biais-variance. Mais rappelons que les modèles paramétriques bénéficient d'un apport considérable d'information a priori sur la distribution des données sous la forme d'une expression mathématique définissant une petite famille de distributions. A l'inverse, les modèles non paramétriques doivent compenser ce manque information a priori par de l'information venant des données seules, et donc par des données supplémentaires.
Donc, si l'on est dans une situation où l'emploi d'un modèle paramétrique est justifié, un modèle non paramétrique souffrira, selon les choix de l'analyste, d'un biais plus élevé, ou d'une variance plus élevée (ou les deux) que son cousin paramétrique pour un échantillon donné.
Très généralement, une augmentation de la taille de l'échantillon réduit la variance du modèle. Malheureusement, des considérations pratiques empêchent de recourir à des échantillons arbitrairement grands pour contourner le compromis biais-variance.
A l'inverse, le manque de données rend le compromis biais-variance encore plus critique. Pour un biais donné, la variance d'un modèle construit avec peu de données est plus grande que celle d'un modèle construit avec beaucoup de données.
La question de la taille de l'échantillon est à la
fois importante et complexe, car une nouvelle notion doit être introduite, celle
de la dimension de l'espace des données.
Un échantillon de 1.000 observations
est-il grand ou petit ?
Donc, par elle-même, la taille de l'échantillon n'est pas une grandeur significative. Ce qui compte, c'est la densité des observations dans l'espace. Cette densité s'effondre quand, pour une taille d'échantillon donnée, on ajoute des dimensions à l'espace, et donc des paramètres au modèle.
Inversement, si l'on veut maintenir une certaine densité (et donc un certain niveau de précision du modèle) tout en ajoutant des dimensions, il faut augmenter la taille de l'échantillon dans des proportions considérables (en général, comme une exponentielle du nombre de dimensions). Ceci est connu sous le nom facétieux de "malédiction de la dimensionalité".
Il semblerait que dans certains cas, les notions de "nombre
de paramètres" et de "dimension de l'espace des données"
soient différentes. Par exemple, dans le Perceptron Multicouches (PMC), il semble
que l'on puisse ajouter des neurones (et donc des paramètres) à la couche cachée
sans changer la dimension de l'espace des données. Mais la couche cachée
projette les données dans un espace intermédiaire, et c'est la dimension de cet
espace que voit la couche de sortie, et c'est donc elle qui compte pour la précision
du modèle.
Dans la famille de modèles considérée, comment identifier le "meilleur" modèle ? D'abord, ce meilleur modèle ne sera jamais identifié avec certitude en raison du caractère aléatoire de l'échantillon. Mais il est possible (et indispensable) d'identifier des modèles qui sont probablement assez bons. Ceci peut être fait de deux façons :
On construit alors plusieurs modèles candidats en faisant varier, entre autres, le nombre de paramètres. Puis on retient le modèle ayant le niveau d'erreur estimé le plus bas.
________________________
Voir aussi :