Tutoriels

Analyse en Composantes Principales (ACP)

L'ACP est la plus simple et la plus connue des techniques d'Analyse de Données multivariées.

Objectif de l'Analyse en Composantes Principales (ACP)

Etant donné un ensemble d'observations décrites par des variables exclusivement numériques {x1, x2 , ..., xp}, l'ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales, et porteront le nom de Composantes Principales (CP).

En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données provoque une perte d'information. L'ACP procède de façon à ce que cette perte d'information soit la plus faible possible, selon un sens précis et naturel que l'on donnera au mot "information".

L'Analyse en Composantes principales peut donc être vue comme une technique de réduction de dimensionalité.

Propriétés des Composantes Principales

Nombre

Bien que l'objectif soit en général de n'utiliser qu'un petit nombre de Composantes Principales, l'ACP en construit initialement p, autant que de variables originales. Ce n'est que par la suite que l'analyste décidera du nombre de Composantes à retenir. "Retenir k Composantes Principales" veut dire "Remplacer les observations originales par leur projections orthogonales dans le sous-espace à k dimensions défini par les k premières Composantes Principales.".

Orthogonalité

Les Composantes Principales définissent des directions de l'espace des observations qui sont deux à deux orthogonales. Autrement dit, l'ACP procède à un changement de repère orthogonal, les directions originales étant remplacées par les Composantes Principales.

Décorrélation

Les Composantes Principales sont des variables qui s'avèrent être deux à deux décorrélées.

Ordre et sous-espaces optimaux

La propriété fondamentale des Composantes Principales est de pouvoir être classées par ordre décroissant d'importance dans le sens suivant :

Ainsi, le meilleur sous-espace à k dimensions dans lequel projeter les observations est justement celui engendré par les k premières Composantes Principales. Autrement dit, les sous-espaces de projection optimale sont emboîtés, ce qui est une propriété forte, utile, et pas du tout évidente a priori.

Applications de l'Analyse en Composantes Principales

Analyse exploratoire des données

L'utilisation la plus commune de l'ACP est de fournir de données décrites par un grand nombre de variables quantitatives des représentation planes (et donc interprétables visuellement) aussi fidèles que possible. Pour cela, on projette ces données sur des plans factoriels, chaque plan étant défini par une paire de Composantes Principales prises parmi les premières CP.

De l'examen de ces projection, l'analyste tentera de retirer des informations sur la structure des données, par exemple :

Prétraitement de données, réduction de dimensionalité

Toutes les techniques de modélisation multivariée sont sujettes au compromis biais-variance, qui énonce que le nombre de variables effectivement utilisées pour la construction d'un bon modèle doit être sévèrement contrôlé. En pratique, l'analyste fait souvent face à des variables en nombre beaucoup plus important que le "nombre optimal" de variables pour le modèle considéré. Il existe parfois des techniques spécialisées de sélection de variables (voir p. ex. ici), mais des techniques de réduction de dimensionalité comme l'ACP peuvent également être utilisées pour n'alimenter le modèle qu'avec un nombre réduit de variables : par exemple, une Régression Linéaire Multiple "ordinaire" peut parfois être avantageusement remplacé par une Régression utilisant les k premières CP comme variables indépendantes (Régression sur Composantes Principales).

Compression et reconstitution de données

La table des données décrivant les observations dans les k premières CP est moins volumineuse que la table originale. Dans une perspective de transmission ou de stockage d'information, l'ACP peut être perçue comme un technique de compression de données avec pertes (minimales).

Cette vue n'a d'intérêt que s'il est possible de reconstituer les données à partir de leur description compressée. Nous verrons qu'il est effectivement possible de reconstruire approximativement les données dans un espace à p dimensions à partir de leurs projections dans un sous-espace optimal à k dimensions, avec k < p.

ACP comme "moteur" d'autres techniques

Bien que née de considérations résolument pratiques (visualisation de données), la machinerie mathématique et l'interprétation de l'ACP sont très générales, et se retrouvent au cœur d'autres techniques importantes. Mentionnons par exemple :

Généralisations de l'Analyse en Composantes Principales

L'ACP est un simple changement de repère : sa grande force est de pouvoir ainsi recourir à l'Algèbre Linéaire comme outil mathématique principal, et de recevoir une interprétation géométrique simple. Mais cette force est aussi sa faiblesse. En effet, rien ne dit que des nouvelles variables plus complexes que celles résultant d'un changement de repère ne permettraient pas une description plus économe de données.

L'ACP a donc reçu de nombreuses généralisations, essentiellement basées sur des transformations non linéaires des variables originales. Nous n'aborderons pas cette question dans ce Glossaire, mais le lecteur intéressé pourra rechercher des informations sur :

 Par ailleurs, notons que les Cartes de Kohonen peuvent être interprétées comme une technique de réduction de dimensionalité.

 ________________________________________________

 

 

Tutoriel 1

 

Ce premier Tutoriel est un panorama de l'ACP sans aucun recours aux mathématiques. Si celles-ci sont indispensables pour rendre opérationelles les idées directrices de l'ACP, il est par contre tout à fait possible de décrire cette technique majeure et d'en justifier l'intérêt sans mathématiques.

Nous passerons donc en revue les trois grandes phases de l'ACP :

    * La recherche des axes factoriels dans l'espace des individus, et la justification de leur intérêt.

    * La recherche des composantes principales dans l'espace des variables, et la justification de leur intérêt.

    * L'interprétation des résultats. Cette phase est la moins formalisable, et celle qui fait le plus appel au savoir-faire et à l'expérience de l'analyste.

 

 

PANORAMA DE L'ANALYSE EN COMPOSANTES PRINCIPALES

Qu'est-ce que l'ACP ?

Un exemple académique

Un exemple un peu plus réaliste

Sous-espaces optimaux emboîtés

Qu'est-ce qu'une "bonne projection" ?

Distorsion

Ajustement

Inertie

Axes factoriels et plans factoriels

Interprétation d'une ACP

Interprétation des individus

Interprétation des axes factoriels

ACP sur les variables

L'espace des variables

Distance entre variables et corrélation

Composantes principales

Plans principaux et projections des variables

Interprétation des composantes principales

Dualité et formules de transition

TUTORIEL

____________________________________________________________

 

Tutoriel 2

 

Dans ce Tutoriel, nous détaillons le mécanisme par lequel sont identifiés les "meilleurs" sous-espaces de projection du nuage des individus. Nous montrerons en particulier que ces sous-espaces sont emboîtés : le meilleur sous-espace de dimension k est inclus dans le meilleur sous-espace de dimension k' (k < k'). Nous calculerons également les inerties des projections du nuage sur ces divers sous-espaces.

 

 

ANALYSE DU NUAGE DES INDIVIDUS

Standardisation des variables

Nuage des individus

Inertie

Inertie d'un point

Par rapport à l'origine

Inertie de la projection sur une droite

Décomposition de l'inertie

Inertie d'un nuage de points

Maximiser l'inertie de la projection d'un nuage sur à une droite

Ajustement d'une droite au nuage de points

Distorsion minimale

Formalisation du problème

Inertie du nuage

Inertie de la projection du nuage

Résolution du problème

Le premier axe factoriel

Coordonnées des points projetés

Inertie du premier axe factoriel

Maximiser l'inertie de la projection d'un nuage sur un plan

Le plan d'inertie projetée maximale contient le premier axe factoriel

Recherche du deuxième axe factoriel

Inertie projetée sur le plan factoriel

Maximiser l'inertie de la projection d'un  nuage sur un sous-espace quelconque

TUTORIEL

______________________________________________________________________

 

Tutoriel 3

 

L'analyste est au moins autant intéressé par les variables que par les individus. En particulier, il cherche à mettre en évidence des groupes de variables deux-à-deux fortement corrélées.

De telles découvertes peuvent être faites par un examen minutieux mais laborieux de la matrice de corrélation des données.

Cependant, l'ACP offre la possibilité de faire ces mêmes découvertes par un examen visuel de diagrammes représentant graphiquement ces corrélations. Ces diagrammes seront des projections des vecteurs-variables sur des plans factoriels identifiés par une mécanique semblable à celle décrite pour les individus dans le Tutoriel précédent, mais utilisée cette fois-ci dans un espace dual de l'espace des individus : l'espace des variables.

De même que les sous-espaces de projection des individus étaient sous-tendus par des axes factoriels, les sous-espaces de projection des variables seront sous-tendus par des composantes principales, combinaisons linéaires des variables originales assurant une représentation réduite mais optimale de ces variables.

-----

Les espaces des individus et des variables représentant la même information mais sous deux formes différentes, on s'attend à ce qu'il soit possible de déduire les propriétés d'un espace à partir des résultats obtenus dans l'autre espace. Cette dualité donne en effet lieu à des formules de transition, qui formalisent en particulier le lien entre axes factoriels et composantes principales.

 

 

ANALYSE DES VARIABLES

Espace des variables

Propriétés des vecteurs de l'espace des variables

Normalisation, hypersphère des variables

Centrage

Angle entre variables, corrélation

Orthogonalité de deux variables

Distance entre deux variables

Analyse du nuage des variables

Inertie du nuage des variables

Composantes Principales

Les composantes principales sont décorrélées

Nombre de Composantes Principales

Dualité et formules de transition

Rapport des inerties

Egalité des valeurs propres

Correspondance entre vecteurs propres

Projections des individus et des variables

Transition entre coordonnées des individus et des variables

TUTORIEL

 ________________________________________________________

 

Tutoriel 4

 

L'objectif de toute Analyse Exploratoire est de permettre à l'analyste de comprendre la structure des données comme s'il était capable de "voir" directement dans un espace de dimension élevée (p pour l'espace des individus, ou n pour l'espace des variables).

A défaut, l'ACP va lui permettre de projeter ces espaces et leurs contenus sur des plans, dits plans factoriels. Chaque plan factoriel est défini par deux axes:

    * Deux axes factoriels pour les individus.

    * Deux composantes principales pour les variables.

Les meilleurs axes de projection ont été trouvés par l'ACP : ce sont les facteurs d'ordre faible. L'ACP garantit que la projection sur les premiers plans factoriels produisent des données la représentation la plus fidèle possible aus sens des Moindres Carrés.

-----

L'analyste n'a plus qu'à utiliser son savoir-faire (lequel doit être grand) pour extraire des valeurs numériques et des diagrammes de projection les informations qui lui apporteront une meilleure compréhension des données.

 

 

INTERPRETATION D'UNE ACP

Qu'est-ce que "Interpréter une ACP" ?

Les outils d'interprétation

Contribution d'un axe

Contribution d'un point à l'inertie un axe

Qualité de représentation, cosinus carré

Pour un individu

Pour un axe factoriel

Pour un plan factoriel

Pour une variable

Cercle des corrélations.

Individus supplémentaires

Variables supplémentaires

Les règles d'interprétation

Etude de l'inertie des facteurs

Etude des valeurs propres

La première valeur propre

Les autres valeurs propres

Petites valeurs propres

Diagramme des valeurs propres

Pourcentages d'inertie des facteurs

Interprétation des facteurs

Contributions des individus actifs

Contributions des variables actives

Interprétation axe par axe

Interprétation par plan factoriel

Individus supplémentaires

Variables supplémentaires

Variable numérique

Variable nominale

Choix du nombre d'axes

Analyse exploratoire

Taux de décroissance

Régularité de la décroissance

Cas favorable

Cas défavorable

Valeur seuil

Compression de données

Prétraitement

Principe

Mise en garde

TUTORIEL

___________________________________________________

 

 

Tutoriel 5

 

Dans ce Tutoriel, nous abordons succinctement quelques compléments sur l'Analyse en Composantes Principales.

    * L'ACP peut être utilisée pour faire de la compression d'information avec pertes. L'idée simple est de ne retenir que les k < p premiers axes factoriels pour décrire les individus. La difficulté est alors de définir la transformation inverse de façon à reconstruire les individus dans le repère initial (ceci est essentiel, par exemple en compression d'images). La solution optimale sera apportée par le Théorème d'Eckart-Young, que nous énonçons mais dont la démonstration dépasse le cadre de ce Glossaire.

    * L'ACP de base suppose que l'on utilise la distance euclidienne, et que tous les individus sont munis du même "poids" unité. Ces deux hypothèses peuvent (et doivent dans certains cas) être remplacées par des hypothèses plus générales. Nous montrons que la notion d'inertie doit alors être redéfinie, mais que les grandes lignes de la théorie que nous avons développée restent valables.

    * Comme toutes les techniques reposant sur des Moindres Carrés, l'ACP est sensible aux point aberrants. Nous montrons comment le codage des individus par rang peut rendre l'ACP plus robuste.

 

 

COMPLEMENTS SUR L'ACP

Compression et reconstitution de données

Reconstitution sans perte

Reconstitution avec pertes

Reconstitution optimale : Théorème d'Eckart-Young   (sans démonstration)

Cas où la matrice de covariance n'est pas de rang plein

ACP généralisée

Hypothèses restrictives et leur généralisation

Métrique générale

Pondération

Le problème généralisé

Résolution

ACP sur rangs

TUTORIEL

 

 _________________________________________________

 

Voir aussi:

Inertie

Matrice de covariance

Analyse Factorielle Discriminante

Réduction de dimensionalité

Téléchargez ce Glossaire