Régression logistique

Une technique classique de classification.

 

La RL peut être présentée de deux façons différentes :

    1) On sait qu'une approche de la classification probabiliste consiste à identifier les fonctions de régression des indicatrices de classe. La Régression Linéaire Multiple est mal adaptée pour ce travail. En remplaçant le modèle Linéaire par un modèle mieux adapté, le modèle Logistique, on obtient une technique d'estimation des probabilités a posteriori très puissante.
 

    2) L'Analyse Discriminante (AD) repose sur des conditions très contraignantes sur la distribution des données dans les classes. En relaxant ces conditions, on crée une famille de modèles dont l'Analyse Discriminante apparaît alors comme un cas particulier. L'estimation des paramètres du modèle ne se fait plus en estimant moyennes et matrices de covariance de distributions normales, mais en maximisant une grandeur appelée vraisemblance, et qui traduit l'adaptation du modèle aux données.

 

La RL est surtout utilisée dans les problèmes à deux classes (p. ex. "scoring"), mais elle peut être étendue au cas multi-classes. Les variables indépendantes (ou "prédicteurs") peuvent être numériques ou nominales.

 

Dans sa forme de base, la RL trace des frontières entre classes qui sont linéaires par morceaux (comme c'est également le cas pour l'AD). En fait, si les classes satisfont aux hypothèses de l'AD, ces frontières sont identiques à celles trouvées par l'AD, et qui sont alors optimales.

 

Un avantage de la RL sur l'AD est qu'elle calcule les probabilités a posteriori des classes sans jamais passer par la phase intermédiaire de l'estimation, toujours hasardeuse, des densités des classes. On dit que la LR fait de l'estimation directe de ces probabilités a posteriori (l'AD en faisant une etimation indirecte).

 

Bien que théoriquement plus puissante que l'AD, la RL ne doit pas lui être systématiquement préférée. Parce qu'elle fait moins d'hypothèses sur les distributions des classes que l'AD, elle a besoin d'échantillons de plus grande taille que cette dernière pour atteindre un bon niveau de stabilité. Les calculs sont également plus longs que pour l'AD.

 

Notons enfin que les Réseaux de Neurones, et plus particulièrement le Perceptron Multicouches, peuvent être compris comme des généralisations de la Régression Logistique résultant d'une relaxation additionnelle des hypothèses sur la distribution des données.

_______________________________________________________________________________

 

Ces Tutoriels n'ont pas encore été traduits en français. Nous vous prions de nous excuser pour cette gêne.
Une fois dans la zone des Tutoriels, vous pourrez librement accéder aux Tutoriels en français.

 

 

Tutorial 1

 

In this Tutorial, we introduce Logistic Regression as a generalization of Discriminant Analysis.

The simplest form of Discriminant Analysis can be expressed in terms of the "logit link function". This result is obtained by using the stringent assumptions of DA (normal classes with identical covariance matrices), but these assumptions vanish from the final result. A natural generalization of DA is then to keep the result, and replace the stringent assumptions by looser ones for which the logit result still holds. One therefore creates a larger class of models (Logistic Regression), of which Discriminant Analysis then appears to be a particular case.

 

 

BASICS OF LOGISTIC REGRESSION

An intuitive approach to Logistic Regression

A toy problem

Regressing the class indicators

Calculating the exact regression function

The logistic function

From DA to Logistic Regression

The "logit" function

The logit beyond DA

Logisitic Regression is regression

Posterior probabilities

The coefficients

TUTORIAL

______________________________________________

 

Tutorial 2

 

Estimating the parameters of a Logistic Regression model is quite different from what it is in Discriminant Analysis. Here, we are not estimating means and covariance matrices, but rather posterior probabilities. This is achieved directly by tuning the parameters of the model until the likelihood of the data is largest (Maximum Likelihood estimation).

This optimization problem has no closed form solution, and therefore has to be solved numerically by iterative techniques.

 

ESTIMATING THE PARAMETERS

LR is more complicated than DA

The concept of "Likelihood"

Assessing the model's output

The likelihood is a probability density

Log-likelihood

Maximizing the likelihood

Optimization

Non linear optimization

A unique solution ?

TUTORIAL

______________________________________