|
Tutoriels |
Analyse en Composantes Principales (ACP)
L'ACP est la plus simple et la plus connue des techniques d'Analyse de Données multivariées.
Etant donné un ensemble d'observations décrites par des variables exclusivement numériques {x1, x2 , ..., xp}, l'ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales, et porteront le nom de Composantes Principales (CP).
En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données provoque une perte d'information. L'ACP procède de façon à ce que cette perte d'information soit la plus faible possible, selon un sens précis et naturel que l'on donnera au mot "information".
L'Analyse en Composantes principales peut donc être vue comme une technique de réduction de dimensionalité.
Bien que l'objectif soit en général de n'utiliser qu'un petit nombre de Composantes Principales, l'ACP en construit initialement p, autant que de variables originales. Ce n'est que par la suite que l'analyste décidera du nombre de Composantes à retenir. "Retenir k Composantes Principales" veut dire "Remplacer les observations originales par leur projections orthogonales dans le sous-espace à k dimensions défini par les k premières Composantes Principales.".
Les Composantes Principales définissent des directions de l'espace des observations qui sont deux à deux orthogonales. Autrement dit, l'ACP procède à un changement de repère orthogonal, les directions originales étant remplacées par les Composantes Principales.
Les Composantes Principales sont des variables qui s'avèrent être deux à deux décorrélées.
La propriété fondamentale des Composantes Principales est de pouvoir être classées par ordre décroissant d'importance dans le sens suivant :
Ainsi, le meilleur sous-espace à k dimensions dans lequel projeter les observations est justement celui engendré par les k premières Composantes Principales. Autrement dit, les sous-espaces de projection optimale sont emboîtés, ce qui est une propriété forte, utile, et pas du tout évidente a priori.
L'utilisation la plus commune de l'ACP est de fournir de données décrites par un grand nombre de variables quantitatives des représentation planes (et donc interprétables visuellement) aussi fidèles que possible. Pour cela, on projette ces données sur des plans factoriels, chaque plan étant défini par une paire de Composantes Principales prises parmi les premières CP.
De l'examen de ces projection, l'analyste tentera de retirer des informations sur la structure des données, par exemple :
Toutes les techniques de modélisation multivariée sont sujettes au compromis biais-variance, qui énonce que le nombre de variables effectivement utilisées pour la construction d'un bon modèle doit être sévèrement contrôlé. En pratique, l'analyste fait souvent face à des variables en nombre beaucoup plus important que le "nombre optimal" de variables pour le modèle considéré. Il existe parfois des techniques spécialisées de sélection de variables (voir p. ex. ici), mais des techniques de réduction de dimensionalité comme l'ACP peuvent également être utilisées pour n'alimenter le modèle qu'avec un nombre réduit de variables : par exemple, une Régression Linéaire Multiple "ordinaire" peut parfois être avantageusement remplacé par une Régression utilisant les k premières CP comme variables indépendantes (Régression sur Composantes Principales).
La table des données décrivant les observations dans les k premières CP est moins volumineuse que la table originale. Dans une perspective de transmission ou de stockage d'information, l'ACP peut être perçue comme un technique de compression de données avec pertes (minimales).
Cette vue n'a d'intérêt que s'il est possible de reconstituer les données à partir de leur description compressée. Nous verrons qu'il est effectivement possible de reconstruire approximativement les données dans un espace à p dimensions à partir de leurs projections dans un sous-espace optimal à k dimensions, avec k < p.
Bien que née de considérations résolument pratiques (visualisation de données), la machinerie mathématique et l'interprétation de l'ACP sont très générales, et se retrouvent au cœur d'autres techniques importantes. Mentionnons par exemple :
L'ACP est un simple changement de repère : sa grande force est de pouvoir ainsi recourir à l'Algèbre Linéaire comme outil mathématique principal, et de recevoir une interprétation géométrique simple. Mais cette force est aussi sa faiblesse. En effet, rien ne dit que des nouvelles variables plus complexes que celles résultant d'un changement de repère ne permettraient pas une description plus économe de données.
L'ACP a donc reçu de nombreuses généralisations, essentiellement basées sur des transformations non linéaires des variables originales. Nous n'aborderons pas cette question dans ce Glossaire, mais le lecteur intéressé pourra rechercher des informations sur :
Par ailleurs, notons que les Cartes de Kohonen peuvent être interprétées comme une technique de réduction de dimensionalité.
________________________________________________
|
Tutoriel 1 |
Ce premier Tutoriel est un panorama de l'ACP sans aucun recours aux mathématiques. Si celles-ci sont indispensables pour rendre opérationelles les idées directrices de l'ACP, il est par contre tout à fait possible de décrire cette technique majeure et d'en justifier l'intérêt sans mathématiques.
Nous passerons donc en revue les trois grandes phases de l'ACP :
* La recherche des axes factoriels dans l'espace des individus, et la justification de leur intérêt.
* La recherche des composantes principales dans l'espace des variables, et la justification de leur intérêt.
* L'interprétation des résultats. Cette phase est la moins formalisable, et celle qui fait le plus appel au savoir-faire et à l'expérience de l'analyste.
PANORAMA DE L'ANALYSE EN COMPOSANTES PRINCIPALES
|
Qu'est-ce que l'ACP ? Un exemple académique Un exemple un peu plus réaliste Sous-espaces optimaux emboîtés Qu'est-ce qu'une "bonne projection" ? Distorsion Ajustement Inertie Axes factoriels et plans factoriels Interprétation d'une ACP Interprétation des individus Interprétation des axes factoriels ACP sur les variables L'espace des variables Distance entre variables et corrélation Composantes principales Plans principaux et projections des variables Interprétation des composantes principales Dualité et formules de transition |
||
|
TUTORIEL |
||
____________________________________________________________
|
Tutoriel 2 |
Dans ce Tutoriel, nous détaillons le mécanisme par lequel sont identifiés les "meilleurs" sous-espaces de projection du nuage des individus. Nous montrerons en particulier que ces sous-espaces sont emboîtés : le meilleur sous-espace de dimension k est inclus dans le meilleur sous-espace de dimension k' (k < k'). Nous calculerons également les inerties des projections du nuage sur ces divers sous-espaces.
ANALYSE DU NUAGE DES INDIVIDUS
|
Standardisation des variables Nuage des individus Inertie Inertie d'un point Par rapport à l'origine Inertie de la projection sur une droite Décomposition de l'inertie Inertie d'un nuage de points Maximiser l'inertie de la projection d'un nuage sur à une droite Ajustement d'une droite au nuage de points Distorsion minimale Formalisation du problème Inertie du nuage Inertie de la projection du nuage Résolution du problème Le premier axe factoriel Coordonnées des points projetés Inertie du premier axe factoriel Maximiser l'inertie de la projection d'un nuage sur un plan Le plan d'inertie projetée maximale contient le premier axe factoriel Recherche du deuxième axe factoriel Inertie projetée sur le plan factoriel Maximiser l'inertie de la projection d'un nuage sur un sous-espace quelconque |
||
|
TUTORIEL |
||
______________________________________________________________________
|
Tutoriel 3 |
L'analyste est au moins autant intéressé par les variables que par les individus. En particulier, il cherche à mettre en évidence des groupes de variables deux-à-deux fortement corrélées.
De telles découvertes peuvent être faites par un examen minutieux mais laborieux de la matrice de corrélation des données.
Cependant, l'ACP offre la possibilité de faire ces mêmes découvertes par un examen visuel de diagrammes représentant graphiquement ces corrélations. Ces diagrammes seront des projections des vecteurs-variables sur des plans factoriels identifiés par une mécanique semblable à celle décrite pour les individus dans le Tutoriel précédent, mais utilisée cette fois-ci dans un espace dual de l'espace des individus : l'espace des variables.
De même que les sous-espaces de projection des individus étaient sous-tendus par des axes factoriels, les sous-espaces de projection des variables seront sous-tendus par des composantes principales, combinaisons linéaires des variables originales assurant une représentation réduite mais optimale de ces variables.
-----
Les espaces des individus et des variables représentant la même information mais sous deux formes différentes, on s'attend à ce qu'il soit possible de déduire les propriétés d'un espace à partir des résultats obtenus dans l'autre espace. Cette dualité donne en effet lieu à des formules de transition, qui formalisent en particulier le lien entre axes factoriels et composantes principales.
ANALYSE DES VARIABLES
|
Espace des variables Propriétés des vecteurs de l'espace des variables Normalisation, hypersphère des variables Centrage Angle entre variables, corrélation Orthogonalité de deux variables Distance entre deux variables Analyse du nuage des variables Inertie du nuage des variables Composantes Principales Les composantes principales sont décorrélées Nombre de Composantes Principales Dualité et formules de transition Rapport des inerties Egalité des valeurs propres Correspondance entre vecteurs propres Projections des individus et des variables Transition entre coordonnées des individus et des variables |
||
|
TUTORIEL |
||
________________________________________________________
|
Tutoriel 4 |
L'objectif de toute Analyse Exploratoire est de permettre à l'analyste de comprendre la structure des données comme s'il était capable de "voir" directement dans un espace de dimension élevée (p pour l'espace des individus, ou n pour l'espace des variables).
A défaut, l'ACP va lui permettre de projeter ces espaces et leurs contenus sur des plans, dits plans factoriels. Chaque plan factoriel est défini par deux axes:
* Deux axes factoriels pour les individus.
* Deux composantes principales pour les variables.
Les meilleurs axes de projection ont été trouvés par l'ACP : ce sont les facteurs d'ordre faible. L'ACP garantit que la projection sur les premiers plans factoriels produisent des données la représentation la plus fidèle possible aus sens des Moindres Carrés.
-----
L'analyste n'a plus qu'à utiliser son savoir-faire (lequel doit être grand) pour extraire des valeurs numériques et des diagrammes de projection les informations qui lui apporteront une meilleure compréhension des données.
INTERPRETATION D'UNE ACP
|
Qu'est-ce que "Interpréter une ACP" ? Les outils d'interprétation Contribution d'un axe Contribution d'un point à l'inertie un axe Qualité de représentation, cosinus carré Pour un individu Pour un axe factoriel Pour un plan factoriel Pour une variable Cercle des corrélations. Individus supplémentaires Variables supplémentaires Les règles d'interprétation Etude de l'inertie des facteurs Etude des valeurs propres La première valeur propre Les autres valeurs propres Petites valeurs propres Diagramme des valeurs propres Pourcentages d'inertie des facteurs Interprétation des facteurs Contributions des individus actifs Contributions des variables actives Interprétation axe par axe Interprétation par plan factoriel Individus supplémentaires Variables supplémentaires Variable numérique Variable nominale Choix du nombre d'axes Analyse exploratoire Taux de décroissance Régularité de la décroissance Cas favorable Cas défavorable Valeur seuil Compression de données Prétraitement Principe Mise en garde |
||
|
TUTORIEL |
||
___________________________________________________
|
Tutoriel 5 |
Dans ce Tutoriel, nous abordons succinctement quelques compléments sur l'Analyse en Composantes Principales.
* L'ACP peut être utilisée pour faire de la compression d'information avec pertes. L'idée simple est de ne retenir que les k < p premiers axes factoriels pour décrire les individus. La difficulté est alors de définir la transformation inverse de façon à reconstruire les individus dans le repère initial (ceci est essentiel, par exemple en compression d'images). La solution optimale sera apportée par le Théorème d'Eckart-Young, que nous énonçons mais dont la démonstration dépasse le cadre de ce Glossaire.
* L'ACP de base suppose que l'on utilise la distance euclidienne, et que tous les individus sont munis du même "poids" unité. Ces deux hypothèses peuvent (et doivent dans certains cas) être remplacées par des hypothèses plus générales. Nous montrons que la notion d'inertie doit alors être redéfinie, mais que les grandes lignes de la théorie que nous avons développée restent valables.
* Comme toutes les techniques reposant sur des Moindres Carrés, l'ACP est sensible aux point aberrants. Nous montrons comment le codage des individus par rang peut rendre l'ACP plus robuste.
COMPLEMENTS SUR L'ACP
|
Compression et reconstitution de données Reconstitution sans perte Reconstitution avec pertes Reconstitution optimale : Théorème d'Eckart-Young (sans démonstration) Cas où la matrice de covariance n'est pas de rang plein ACP généralisée Hypothèses restrictives et leur généralisation Métrique générale Pondération Le problème généralisé Résolution ACP sur rangs |
||
|
TUTORIEL |
||
_________________________________________________
Voir aussi: