Action par laquelle on tente d'estimer les performances futures d'un modèle qui vient d'être construit sur un jeu de données. On dit aussi que l'on évalue ses capacités de généralisation.
Rappelons que la qualité réelle d'un modèle ne peut
pas être estimée au vu de ses résultats sur les
données qui ont servi à le construire, sauf cas exceptionnel
(p. ex. Régression Linéaire dans les conditions idéales). En
fait, beaucoup de types de modèles peuvent, lorsqu'ils sont
mal utilisés, conduire à des résultats excellents (et
totalement illusoires) sur les données "de construction", et
des résultats catastrophiques sur les données
"d'utilisation".
Valider un modèle est difficile, et la qualité de la
validation dépend grandement du temps que l'on est prêt à y
consacrer. Les approches classiques sont :
Note : La phase de validation est parfois appelée phase de "test".
Technique particulière de
validation
d'une
architecture
de modèle dans laquelle plusieurs modèles de même architecture
sont construits sur des sous-ensembles disjoints des données
disponibles. La performance de chacun des modèles est alors
estimée sur la partie des données qui n'a pas été utilisée
lors de sa construction.
Ces résultats sont ensuite combinés pour donner une estimation
du pouvoir de
généralisation
de l'architecture testée.
Le "Leave One Out"
est un cas particulier de Validation Croisée dans lequel
chacun des ensembles d'apprentissage est constitué de
l'ensemble complet des données dont on a retiré un seul
individu. Plus lourd à mettre en oeuvre que la Validation
Croisée classique, le Leave One Out possède des vertus
appréciées des statisticien (estimation non biaisée de
l'erreur de généralisation).
Le Bootstrap est à
l'origine une technique permettant, par exemple, d'estimer la
confiance que l'on peut accorder à l'estimation de l'espérance
d'une variable aléatoire en prenant pour estimation la moyenne
d'un certain nombre de mesures. Ses développements ont permis
de l'adapter à la question de l'estimation des performances
d'une architecture de modèle.
Sa mise en oeuvre ressemble à celle de la Validation Croisée,
et en diffère essentiellement par la façon dont sont
déterminés les différents ensembles d'apprentissage.
____________________________________________________________
Voir aussi: