Généralisation

Un modèle est construit à partir des données disponibles lors de son élaboration. Puis, de nouvelles données vont venir, et le modèle leur sera appliqué pour en extraire de l'information. Par exemple, un nouveau candidat à un prêt sera "soumis" à un Arbre de Décision construit sur une base historique de prêts. L'Arbre rendra son verdict en termes de probabilité de bon remboursement de la part du nouveau candidat.
 

A supposer que l'on ait été satisfait de la qualité de la prédiction (rétrospective!) de l'Arbre sur les données qui ont servi à le construire, peut-on pour autant croire que les prédictions de l'Arbre sur de nouveaux candidats seront elles aussi satisfaisantes ? Autrement dit, aura-t-il un bon pouvoir de généralisation ?
 

Cette question est une des plus importantes de la modélisation, et la réponse est malheureusement :

 

"Non, il n'y a en général aucune raison de croire aveuglément qu'un modèle satisfaisant sur les données qui ont servi à le construire sera également satisfaisant quand on aura le plus besoin de lui, c'est à dire sur de nouvelles données".

 

Estimer les performances en généralisation d'un modèle est ce qu'on appelle "valider" le modèle. Cette phase est extrêmement importante, et trop souvent négligée.
 

Il faut bien comprendre qu'un modèle qui généralise mal n'est pas représentatif de la réalité. La bonne qualité éventuelle de ses résultats sur les données de départ est un leurre d'autant plus dangereux que l'utilisateur irresponsable n'est pas conscient de ces insuffisances, et prendra les résultats du modèle sur des nouvelles données pour argent comptant.

-----

La cause la plus fréquente de mauvaise généralisation est la surparamétrisation du modèle, une erreur de conception qui consiste à construire un modèle incorporant un trop grand nombre de paramètres. Ce point est abordé en détail dans l'entrée relative au compromis biais-variance.

 

Téléchargez ce Glossaire