Un modèle est construit à partir des
données disponibles lors de son élaboration. Puis, de nouvelles
données vont venir, et le modèle leur sera appliqué pour
en extraire de l'information. Par exemple, un nouveau candidat à un prêt
sera "soumis" à un Arbre de Décision construit sur une base historique
de prêts. L'Arbre rendra son verdict en termes de probabilité de
bon remboursement de la part du nouveau candidat.
A supposer que l'on ait été satisfait
de la qualité de la prédiction (rétrospective!) de l'Arbre
sur les données qui ont servi à le construire, peut-on pour autant
croire que les prédictions de l'Arbre sur de nouveaux candidats seront
elles aussi satisfaisantes ? Autrement dit, aura-t-il un bon pouvoir de généralisation
?
Cette question est une des plus importantes de la
modélisation, et la réponse est malheureusement :
"Non, il n'y a en général aucune raison de croire aveuglément qu'un modèle satisfaisant sur les données qui ont servi à le construire sera également satisfaisant quand on aura le plus besoin de lui, c'est à dire sur de nouvelles données".
Estimer les performances en généralisation
d'un modèle est ce qu'on appelle "valider" le modèle. Cette phase est extrêmement
importante, et trop souvent négligée.
Il faut bien comprendre qu'un modèle qui généralise mal n'est pas représentatif de la réalité. La bonne qualité éventuelle de ses résultats sur les données de départ est un leurre d'autant plus dangereux que l'utilisateur irresponsable n'est pas conscient de ces insuffisances, et prendra les résultats du modèle sur des nouvelles données pour argent comptant.
-----
La cause la plus fréquente de mauvaise généralisation est la surparamétrisation du modèle, une erreur de conception qui consiste à construire un modèle incorporant un trop grand nombre de paramètres. Ce point est abordé en détail dans l'entrée relative au compromis biais-variance.