Qualitative (Variable)

Autre nom pour "Variable Nominale".
 

Quantile

Voir ici.

 

Quantitative

Autre nom pour  "Variable Numérique". 

 

Une fois un modèle de régression construit se pose la question de savoir s'il rend fidèlement compte de l'échantillon (rappelons que ceci ne préjuge en rien de son pouvoir de généralisation, seul intéressant). A cette fin, on calcule la somme des carrés des résidus, dont on espère qu'elle aura une faible valeur. Appelons "SCR" la somme des carrés des résidus.
 

Mais le modèle de "régression" le plus simple consiste à affirmer que la variable à prédire prendra comme valeur, pour tout individu, la valeur moyenne de cette variable sur l'échantillon. Ce "modèle" (trivial) se réduit alors à la valeur moyenne de cette variable sur l'échantillon. La somme des carrés des "résidus" sur ce modèle est en quelque sorte la référence à laquelle comparer la somme des carrés des résidus du modèle construit. Appelons-la "SCM".

 

 

 

Le rôle du modèle étant d'obtenir des résidus globalement plus faibles que ceux du modèle trivial, le rapport SCR/SCM est utilisé comme mesure de la qualité de la régression sur l'échantillon .

    * Si ce rapport est proche de "0", le modèle fait beaucoup mieux que le modèle trivial.

    * S'il est proche de "1", le modèle fait presque "aussi mal" que le modèle trivial.

 

Lorsque le modèle est une Régression Linéaire Simple,  on a l'habitude de noter ce rapport "1 -R²", et on a donc :
 

1 - R² = SCR/SCM

La raison de cette notation curieuse est la suivante : on montre que dans l'expression ci-dessus, "R" est justement égal au coefficient de corrélation (au signe près) entre l'unique variable explicative et la variable à expliquer.
Ceci se comprend d'ailleurs aisément : si R² a une valeur élevée (ç.à.d. proche de 1), la régression est d'excellente qualité. Ceci veut dire que les points se regroupent très bien autour d'une droite, condition qui conduit à une valeur élevée du coefficient de corrélation. L'argument dans l'autre sens est un peu plus spécieux, car le fait qu'une Régression Linéaire soit mauvaise (R² proche de 0) ne donne pas d'information sur le lien éventuel entre les variables, pas plus d'ailleurs qu'un coefficient de corrélation proche de 0 (voir ici).

 

R² ajusté

 Le affiché par les logiciels est mesuré sur l'échantillon. Or on sait bien que, quel que soit le type de modèle, les résultats sur l'échantillon sont meilleurs que ceux qui seront par la suite observés sur de nouveaux individus soumis au verdict du modèle : c'est le problème de la généralisation. En général, la théorie est impuissante à prédire la qualité d'un modèle en généralisation et pour l'estimer, il faut recourir au méthodes de validation. Mais si (et il convient d'insiter sur cette restriction) les hypothèses sur la distribution des données qui sont à la base de la théorie de la Régression Linéaire (Simple ou Multiple) sont vérifiées, alors (et alors seulement), cette même théorie permet d'estimer les vraies performances de la Régression Linéaire en généralisation. Cette estimation est résumée par un nouveau R², dit R² ajusté, qui est aussi affiché par les logiciels. C'est celui qui serait observé sur l'ensemble de la population, et non plus seulement sur l'échantillon. C'est donc lui qui décrit la vraie performance de la Régression Linéaire.

 

Téléchargez ce Glossaire