PLS (Régression)
La Régression Linéaire Multiple (RLM) est le plus simple des modèles linéaires reliant:
* Des variables explicatives (numériques) xi, ou "prédicteurs",
* à une variable à expliquer y.
Mais la RLM souffre de graves défauts:
1) Incapacité à prendre en compte les données manquantes, ce qui conduit souvent le praticien à rejeter beaucoup d'observations incomplètes et pourtant contenant de l'information utile dans les champs renseignés.
2) Grande sensibilité à la collinéarité entre les variables explicatives. La collinéarité exacte rend la RLM impossible, et la collinéarité approchée la rend numériquement instable et fait perdre l'interprétation des coefficients.
3) Indétermination lorsque le nombre d'observations est inférieur au nombre des variables explicatives, situation pourtant fréquemment rencontrée en pratique.
Il existe des techniques pour estimer les données manquantes, mais elles sont soit lourdes à mettre en œuvre, soit arbitraires et inefficaces, voire dangereuses. La collinéarité peut être combattue soit par l'orthogonalisation des prédicteurs (Régression sur Composantes Principales, ou RCP), soit par des méthodes de régularisation ("Ridge Regression", Lasso), qui ont chacunes leurs inconvénients.
Il n'existe pas de méthode directe permettant de combattre le manque d'observations.
La régression PLS (Partial Least Squares) est une technique permettant de contourner ces obstacles. Elle peut être perçue comme une généralisation de la Régression Linéaire Multiple (mais également de la Régression sur Composantes Principales et de l'Analyse Canonique).
La Régression PLS remplace l'espace initial des (nombreuses) variables explicatives par un espace de faible dimensionalité, sous tendu par un petit nombre de variables appelées "facteurs" ou "variable latentes" qui sont construits l'un après l'autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d'un modèle de régression linéaire classique.
Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. A ce titre, ils ressemblent beaucoup aux Composantes Principales de la RCP. Mais alors que ces derniers ne sont calculés qu'à partir des variables initiales (et donc sans référence à la variable à expliquer y), les facteurs de la régression PLS prennent en compte leur utilité individuelle pour prédire y en maximisant leurs corrélations successives avec y, tout en maintenant la contrainte d'orthogonalité avec les facteurs déjà construits.
Sans entrer dans les détails, il peut être éclairant de donner de ce fait une illustration mathématique. Notons d'abord que la régression PLS peut prendre en compte plusieurs variables à expliquer yi, représentées par la matrice Y. Si X représente la matrice des variables explicatives (centrées réduites):
* Les Composantes Principales de la RCP sont des vecteurs propres de la matrice X'X,
* alors que les facteurs de la régression PLS sont des vecteurs propres de la matrice Y'XX'Y, où les variables à expliquer et les variables explicatives sont prises en comptes simultanément.
Notons enfin que la régression PLS est utilisable même sur des variables nominales (explicatives ou à expliquer) par le biais d'un codage sous forme de la création de variables indicatrices binaires.
La régression PLS est la technique principale de modélisation prédictive dans les situations où les prédicteurs sont plus nombreux que les observations, fortement corrélés, et avec de nombreuses données manquantes. Son champ d'application essentiel est la chimiométrie, mais la régression PLS est très générale, et se développe rapidement dans tous les domaines (économie, médecine, psychologie etc...).
________________________________________