Robustesse
Les données (échantillon) contiennent toute l'information dont seront tirées diverses conclusions sur le processus qui leur a donné naissance. Une préoccupation majeure de la modélisation est alors de juger de la fiabilité et de la crédibilité de ces conclusions. Plusieurs causes peuvent jeter un doute sur la validité de ces conclusions, les plus importantes étant :
La notion de robustesse des conclusions d'une analyse est donc multiforme, et recouvre plusieurs réalités différentes. Reprenons les quatre points précédents.
Les données disponibles sont rarement irréprochables (voir ici). La question est alors de savoir si les erreurs que contiennent les données compromettent de façon rédhibitoire toute conclusion qu'on peut tirer de leur analyse. Il n'y a évidemment pas de réponse unique, mais la question est bien illustrée par la notion de point aberrant (ou "point extrême", ou "outlier") en Régression Linéaire (ou plus généralement, pour tout modèle construit par la méthode des Moindres Carrés). Un seul point aberrant peut biaiser le modèle jusqu'à rendre toutes ses prédiction grossièrement fausses, même dans des régions éloignées du point coupable.
Il existe des techniques permettant de réduire la sensibilité de certains modèles aux points aberrants. Par exemple, la méthode des Moindres Carrés, très sensible aux points aberrants, peut être remplacée par la minimisation de la somme des valeurs absolues des erreurs commises par le modèle linéaire. Beaucoup de résultats théoriques sont alors perdus, mais le modèle gagne en robustesse : ses prédictions sont moins sensibles aux points aberrants que celles du modèle "classique" construit par la méthode des Moindres Carrés.
L'échantillon étant par nature aléatoire, le modèle dépend évidemment du jeu de données particulières sur lequel il a été construit. Un modèle produisant des résultats très différents d'un échantillon à l'autre ne peut évidemment pas être considéré comme robuste.
Un modèle contenant :
rend compte avec précision des données qui ont servi à le construire mais produit de mauvais résultats sur des données nouvelles, pourtant de même provenance. Cette surparamétrisation se traduit également par une grande instabilité du modèle (valeurs des coefficients, prédictions) face à de faibles variations des données initiales.
Cette situation est semblable à la précédente, mais le manque de robustesse du modèle est alors due à une erreur d'appréciation de l'analyste lors de la conception de son modèle, alors même que la technique choisie peut être intrinsèquement robuste.
Beaucoup de conclusions sur le mécanisme ayant donné naissance aux données reposent sur des hypothèses formulées a priori sur certaines caractéristiques de ce mécanisme. En particulier, les tests paramétriques font souvent l'hypothèse que les données sont issues de distributions normales. Si tel n'est pas le cas, les conclusions du test peuvent devenir vides de sens, car ces tests ne sont en général pas robustes par rapport à l'hypothèse de normalité.
Il existe parfois des tests non paramétriques pouvant remplacer un test paramétrique donné (voir p.ex. ici). Evidemment, ces tests sont moins puissants que leur contreparties paramétriques, mais ils sont également plus robustes car ne reposant pas sur des hypothèses sur la distribution des données.