Régularisation

Nous vous suggérons de vous reporter dans un premier temps à l'entrée sur le compromis biais-variance.

-----

Lorsqu'un modèle est surparamétré, il exhibe un faible biais, mais qui est malheureusement plus que compensé par une forte variance. En particulier :

avec comme conséquence un mauvais pouvoir de généralisation.

 

La première mesure à prendre contre ces instabilités est une sélection rigoureuse des variables indépendantes entrant dans le modèle, ce qui a en général pour effet automatique de réduire le nombre de paramètres (voir par exemple ici).

Cette mesure peut cependant être insuffisante :

 

L'analyste peut alors avoir recours à des techniques dites de régularisation. Puisque la surparamétrisation se traduit par une grande variance des paramètres, et donc une propention de ceux-ci à prendre de grandes valeurs absolues, on ajoute au modèle des contraintes qui rendent difficile une croissance exagérée des valeurs des paramètres.

Des exemples typiques de techniques de régularisation sont la Régression Ridge, et son équivalent dans le monde neuronal, le weight decay.

-----

La régularisation engendre des effets secondaires gênants :

-----

La figure ci-dessous illustre l'effet d'une régularisation.

L'image supérieure montre un modèle de régression polynomiale (ligne bleue) d'un degré trop élevé. Le modèle oscille fortement dans son effort pour minimiser son Erreur Quadratique Moyenne. Manifestement, il n'a pas compris quelle était la tendance générale des données. Sa forme (et donc ses prédictions), ainsi que les valeurs de ses coefficients changeraient considérablement sous l'effet d'une faible perturbation de l'échantillon (voir ici).

 

 

L'image inférieure montre le même modèle, mais régularisé. Bien qu'ayant le même degré que le polynôme précédent, la régularisation a contraint les coefficients à ne prendre que des valeurs relativement faibles. Le modèle s'adapte mieux à la forme générale des données, il est plus stable, et ses prédictions seront meilleures.


Dans ce cas particulier, un résultat similaire aurait pu être obtenu par une réduction du degré du polynôme.

Notons que l'image des "oscillations", bien que très parlante, est quelque peu trompeuse. Dans le cas de la Régression Linéaire Multiple (RLM), le modèle est matérialisé par un hyperplan, et  n'oscille donc jamais. Néanmoins, la RLM est sujette, comme tout modèle, à la surparamétrisation et peut être régularisée de diverses manières (Régression Ridge, Régression Lasso, Régression sur Composantes Principales, Régression PLS).

 

_______________________________________

 

Voir aussi:

Compromis biais-variance

Régression Ridge

Téléchargez ce Glossaire