PRESS

Acronyme de : PREdicted Sum of Squares.

Rôle du PRESS

PRESS est un des nombreux critères d'évaluation de la qualité d'un modèle de Régression. Il est utilisé pour choisir entre plusieurs modèles concurrents sur un même jeu de données, par exemple dans un contexte de sélection de variables.

En Régression Linéaire Multiple, le R² traditionnel n'est pas utilisable comme critère de comparaison entre modèles (sauf éventuellement entre modèles comprenant le même nombre de variables explicatives) car sa valeur diminue "mécaniquement" lorsqu'on augmente le nombre de variables (voir ici). Le R² ajusté compense quelque peu cette faiblesse, mais encore de façon imparfaite, car chaque observation servant à calculer le R² ajusté a également participé à l'élaboration du modèle (estimation des paramètres), et l'on sait que ce type d'approche rend les estimations de qualité de modèle systématiquement optimistes.

Définition du PRESS

Le PRESS est une mesure de l'ajustement du modèle aux données plus "honnête" que la Somme des Carrés des Résidus (utilisée dans la définition de R²). Il est défini de la façon suivante :

L'opération est répétée pour chacune des observations disponibles. On dispose alors de n résidus leave-one-out.

PRESS est défini comme la somme des carrés de ces "résidus" :

 

PRESS = Si r(i)² =  Si (yi - y*(i)

 

A l'inverse du R², le PRESS ne diminue pas systématiquement lorsqu'on ajoute progressivement des variables au modèle : pour une séquence quelconque de variables, il commence par baisser, puis remonte après avoir atteint une valeur minimale pour une certain nombre de variables. Il peut donc être utilisé dans les procédures classiques des sélection de variables.

 

Plus généralement, sur la base de ce critère, le "meilleur" modèle est celui qui a la plus petite valeur de PRESS.

Calcul du PRESS

L'utilité du PRESS dépasse le cadre de la Régression Linéaire Multiple, et ce critère peut être utilisé pour tout modèle de Régression.

PRESS et Validation Croisée

Son inconvénient majeur est qu'il requiert la construction d'autant de modèles qu'il y a d'observations, ce qui peut conduire à des calculs exagérément longs. Au lieu de procéder au calcul de chacun des résidus leave-one-out, on peut alors :

Le résultat est une approximation du vrai PRESS.

 

C'est ainsi que procède la Validation Croisée lorsqu'elle a pour objectif  l'estimation de l'erreur de prédiction d'un modèle prédictif.

PRESS en Régression Linéaire

La situation est plus favorable dans le cas de la Régression Linéaire. On montre alors que le PRESS authentique peut être calculé rigoureusement en ne construisant pourtant qu'un seul modèle, le modèle complet (sur la base de toutes les observations). Les résidus leave-one-out r(i) sont alors calculables avec la relation :

hi est le ième  élément diagonal de la matrice  X(X'X)-1X', dite "Hat matrix" (voir ici).

Cette expression n'est valable que pour un modèle calculé par la méthode des Moindres Carrés Ordinaires. Dans le cas de la Régression Ridge, on peut utiliser cette même expression, en remplaçant hi par le ième élément diagonal de la matrice de projection ridge X(X'X - lI)-1X'. Le résultat est alors une approximation du vrai PRESS.

Il peut être utilisé non seulement pour procéder à la sélection des variables, mais aussi, pour un jeu de variables donné, pour estimer la valeur optimale du paramètre ridge l.

 ____________________________________________________________

 

Voir aussi:

Régression linéaire Multiple

Téléchargez ce Glossaire