Animation interactive

 

LE COMPROMIS BIAIS-VARIANCE

 

Vous trouverez sur cette page des informations complémentaires sur le compromis biais-variance.

 ______________________________________________

Un modèle est un ensemble d'estimateurs

Prenons comme exemple la régression. Les données sont issues du processus suivant :

y = f(x1, x2 , ..., xp) + ε

f est une fonction déterministe, et ε est aléatoire de moyenne nulle. Le modèle de régression y* = f *(x1, x2 , ..., xp) est construit à partir de l'échantillon. Soit x0 un point de l'espace des données. On espère que f *(x0) est un nombre proche de y0 = f(x0), la vraie valeur de la fonction de régression.

En raison du caractère aléatoire de ε, le modèle dépend de l'échantillon utilisé pour le construire. Un autre échantillon aurait conduit à un modèle différent, et donc à une prédiction en x0 différente. La prédiction du modèle en x0 est donc une variable aléatoire.

Dans la terminologie de la Statistique, un modèle de régression positionne donc en chaque point x0 de l'espace un estimateur de y0, la valeur de la vraie fonction de régression en ce point. Cet estimateur est noté f *(y , x = x0), ou plus brièvement f *0.

La décomposition Biais-Variance

Nous portons maintenant notre attention sur ce qui se passe en cet unique point x0 (bien qu'il soit possible d'établir une théorie plus complète portant sur l'espace entier, et qui prend alors en compte la distribution de probabilité inconditionnelle p(x)).

f *0 est "bon" estimateur si ses réalisations sont proches de la valeur vraie y0 dans un sens probabiliste, c'est à dire, par exemple, si son Erreur Quadratique Moyenne (EQM) :

EQM = E[( f *0 - y0]

est faible.

On montre facilement que :

EQM = Biais² + Variance

où "Biais" et "Variance" sont ceux de la prédiction du modèle, considéré comme un estimateur de y0.

L'origine des erreurs du modèle est donc double :

Familles de modèles

L'examen d'un échantillon ne permet jamais de décider de façon certaine quelle doit être l'architecture utilisée pour la construction du modèle. L'analyste doit donc considérer plusieurs architectures candidates, et retenir celle qui conduira au modèle produisant les prédictions les plus précises sur des données nouvelles.

Par exemple, dans le cas de la régression, il est courant d'avoir à sa disposition un très grand nombre de variables indépendantes (les régresseurs) susceptibles d'entrer dans le modèle. Mais chaque sous-ensemble de régresseurs peut donner naissance à un modèle, et on est donc confronté au choix d'un modèle dans une famille de modèles. Au point x0, chacun de ces modèles aura son propre biais, sa propre variance, et donc son propre niveau d'erreur (EQM).

Le compromis biais-variance

Le principe du "compromis biais-variance" énonce que, dans cette famille :

 Il est impossible d'identifier avec certitude ce modèle d'erreur minimale, car pour ceci, il faudrait connaître la vraie fonction de régression f(x). Mais il est possible d'identifer des modèles qui sont probablement de bonne qualité. Ceci est l'objet de la "sélection de modèle" (voir ci-dessous).

Complexité d'un modèle

On peut classer les modèles d'une même famille par ordre croissant du nombre de paramètres. Ce nombre est parfois appelé la complexité d'un modèle. Le compromis biais-variance dit alors que :

Le "meilleur" modèle aura donc une complexité ni trop faible ni trop élevée. Le praticien devra trouver le compromis adéquat entre biais et variance à l'intérieur d'une même famille de modèles. Pour cela, le nombre de paramètres sera un de ses moyens de réglage les plus importants.

Surparamétrisation et Surajustement

La vraie performance d'un modèle est celle qui sera observée sur des données nouvelles et n'ayant pas servi à sa construction. Les performances observées sur les données dites d' "apprentissage" ne sont pas significatives.

 

Ce point ne doit jamais quitter l'esprit du praticien : même modérée, la surparamétrisation peut provoquer une croissance explosive de la variance du modèle. Comme ce phénomène est masqué par d'excellentes performances sur les données d'apprentissage, et ne devient visible que lorsqu'il est trop tard (c'est à dire, lorsque que l'on alimente le modèle ave des données nouvelles), il tend à être quelque peu ignoré par le néophyte en modélisation de données.

Le compromis biais-variance est universel

Nous avons donné la régression comme exemple illustrant le compromis biais-variance. Mais ce phénomène est absolument universel et se manifeste sous des formes diverses dans tous les types de modélisation. Donnons quelques exemples :

Une particularité des Arbres de Décision est que l'ajustement de la complexité du modèle se fait souvent a posteriori, par un procédé dit d' "élagage". L'arbre  est dans un premier temps développé jusqu'à une profondeur que l'on sait exagérée, puis les "branches " jugées superflues sont éliminées jusqu'à l'obtention d'un arbre de profondeur adéquate.

La liste est sans fin. Tous les types de modèles sont soumis au compromis biais-variance. Plus précisément, tout modèle appartient à une famille de modèles, certains ayant un fort biais mais une faible variance, d'autres ayant un faible biais mais une forte variance, le "meilleur" modèle se trouvant quelque part entre les deux.

Taille d'échantillon

Modèles paramétriques et non paramétriques

Ces deux types de modèle sont bien entendu sensibles au compromis biais-variance. Mais rappelons que les modèles paramétriques bénéficient d'un apport considérable d'information a priori sur la distribution des données sous la forme d'une expression mathématique définissant une petite famille de distributions. A l'inverse, les modèles non paramétriques doivent compenser ce manque information a priori par de l'information venant des données seules, et donc par des données supplémentaires.

Donc, si l'on est dans une situation où l'emploi d'un modèle paramétrique est justifié, un modèle non paramétrique souffrira, selon les choix de l'analyste, d'un biais plus élevé, ou d'une variance plus élevée (ou les deux) que son cousin paramétrique pour un échantillon donné.

Malédiction de la dimensionalité

Très généralement, une augmentation de la taille de l'échantillon réduit la variance du modèle. Malheureusement, des considérations pratiques empêchent de recourir à des échantillons arbitrairement grands pour contourner le compromis biais-variance.

A l'inverse, le manque de données rend le compromis biais-variance encore plus critique. Pour un biais donné, la variance d'un modèle construit avec peu de données est plus grande que celle d'un modèle construit avec beaucoup de données.

La question de la taille de l'échantillon est à la fois importante et complexe, car une nouvelle notion doit être introduite, celle de la dimension de l'espace des données.
Un échantillon de 1.000 observations est-il grand ou petit ?

 Donc, par elle-même, la taille de l'échantillon n'est pas une grandeur significative. Ce qui compte, c'est la densité des observations dans l'espace. Cette densité s'effondre quand, pour une taille d'échantillon donnée, on ajoute des dimensions à l'espace, et donc des paramètres au modèle.

Inversement, si l'on veut maintenir une certaine densité (et donc un certain niveau de précision du modèle) tout en ajoutant des dimensions, il faut augmenter la taille de l'échantillon dans des proportions considérables (en général, comme une exponentielle du nombre de dimensions). Ceci est connu sous le nom facétieux de "malédiction de la dimensionalité".


Il semblerait que dans certains cas, les notions de "nombre de paramètres" et de "dimension de l'espace des données" soient différentes. Par exemple, dans le Perceptron Multicouches (PMC), il semble que l'on puisse ajouter des neurones (et donc des paramètres) à la couche cachée sans changer la dimension de l'espace des données. Mais la couche cachée projette les données dans un espace intermédiaire, et c'est la dimension de cet espace que voit la couche de sortie, et c'est donc elle qui compte pour la précision du modèle.

Sélection de modèle

Dans la famille de modèles considérée, comment identifier le "meilleur" modèle ? D'abord, ce meilleur modèle ne sera jamais identifié avec certitude en raison du caractère aléatoire de l'échantillon. Mais il est possible (et indispensable) d'identifier des modèles qui sont probablement assez bons. Ceci peut être fait de deux façons :

On construit alors plusieurs modèles candidats en faisant varier, entre autres, le nombre de paramètres. Puis on retient le modèle ayant le niveau d'erreur estimé le plus bas.

 

________________________

 

Voir aussi :

Estimation

Bootstrap

Validation croisée

 

Téléchargez ce Glossaire