Régression logistique
Une technique classique de classification.
La RL peut être présentée de deux façons différentes :
1) On sait qu'une approche
de la classification probabiliste consiste à identifier les fonctions de régression
des indicatrices de classe. La Régression Linéaire
Multiple est mal adaptée pour ce travail. En remplaçant le modèle Linéaire par
un modèle mieux adapté, le modèle Logistique, on obtient une technique d'estimation
des probabilités a posteriori très
puissante.
2) L'Analyse Discriminante (AD) repose sur des conditions très contraignantes sur la distribution des données dans les classes. En relaxant ces conditions, on crée une famille de modèles dont l'Analyse Discriminante apparaît alors comme un cas particulier. L'estimation des paramètres du modèle ne se fait plus en estimant moyennes et matrices de covariance de distributions normales, mais en maximisant une grandeur appelée vraisemblance, et qui traduit l'adaptation du modèle aux données.
La RL est surtout utilisée dans les problèmes à deux classes (p. ex. "scoring"), mais elle peut être étendue au cas multi-classes. Les variables indépendantes (ou "prédicteurs") peuvent être numériques ou nominales.
Dans sa forme de base, la RL trace des frontières entre classes qui sont linéaires par morceaux (comme c'est également le cas pour l'AD). En fait, si les classes satisfont aux hypothèses de l'AD, ces frontières sont identiques à celles trouvées par l'AD, et qui sont alors optimales.
Un avantage de la RL sur l'AD est qu'elle calcule les probabilités a posteriori des classes sans jamais passer par la phase intermédiaire de l'estimation, toujours hasardeuse, des densités des classes. On dit que la LR fait de l'estimation directe de ces probabilités a posteriori (l'AD en faisant une etimation indirecte).
Bien que théoriquement plus puissante que l'AD, la RL ne doit pas lui être systématiquement préférée. Parce qu'elle fait moins d'hypothèses sur les distributions des classes que l'AD, elle a besoin d'échantillons de plus grande taille que cette dernière pour atteindre un bon niveau de stabilité. Les calculs sont également plus longs que pour l'AD.
Notons enfin que les Réseaux de Neurones, et plus particulièrement le Perceptron Multicouches, peuvent être compris comme des généralisations de la Régression Logistique résultant d'une relaxation additionnelle des hypothèses sur la distribution des données.
_______________________________________________________________________________
Ces Tutoriels n'ont pas encore
été traduits en français. Nous vous prions de nous excuser pour cette gêne. |
|
Tutorial 1 |
In this Tutorial, we introduce Logistic Regression as a generalization of Discriminant Analysis.
The simplest form of Discriminant Analysis can be expressed in terms of the "logit link function". This result is obtained by using the stringent assumptions of DA (normal classes with identical covariance matrices), but these assumptions vanish from the final result. A natural generalization of DA is then to keep the result, and replace the stringent assumptions by looser ones for which the logit result still holds. One therefore creates a larger class of models (Logistic Regression), of which Discriminant Analysis then appears to be a particular case.
BASICS OF LOGISTIC REGRESSION
|
An intuitive approach to Logistic Regression A toy problem Regressing the class indicators Calculating the exact regression function The logistic function From DA to Logistic Regression The "logit" function The logit beyond DA Logisitic Regression is regression Posterior probabilities The coefficients |
||
|
TUTORIAL |
||
______________________________________________
|
Tutorial 2 |
Estimating the parameters of a Logistic Regression model is quite different from what it is in Discriminant Analysis. Here, we are not estimating means and covariance matrices, but rather posterior probabilities. This is achieved directly by tuning the parameters of the model until the likelihood of the data is largest (Maximum Likelihood estimation).
This optimization problem has no closed form solution, and therefore has to be solved numerically by iterative techniques.
ESTIMATING THE PARAMETERS
|
LR is more complicated than DA The concept of "Likelihood" Assessing the model's output The likelihood is a probability density Log-likelihood Maximizing the likelihood Optimization Non linear optimization A unique solution ? |
||
|
TUTORIAL |
||
______________________________________