Normale multivariée  (Distribution)

Nous vous suggérons dans un premier temps de vous reporter à l'entrée relative à la distribution normale bivariée.

-----

La distribution normale multivariée (ou "multinormale") est la plus importante des distributions multidimensionnelles. Il est fréquent que des données réelles aient une distribution conjointe qui soit approximativement multinormale, et des techniques comme l'Analyse Discriminante font explicitement appel à cette hypothèse.

Définition de la distribution normale multivariée

Nous cherchons à généraliser la distribution normale ordinaire aux vecteurs aléatoires. Il existe plusieurs façons de le faire.

Une mauvaise approche

Commençons par insister sur ce qu'une distribution multinormale n'est pas.

L'approche la plus simple consisterait à "définir" la distribution normale multivariée comme une distribution dont toutes les distributions marginales soient normales.

Mais nous savons qu'il existe des distributions bidimensionnelles dont les distributions marginales sont normales, et qui pourtant ne sont pas binormales.

Nous devons donc renoncer à définir la distribution normale multivariée de cette façon.

La distribution normale bivariée

Nous avons défini la distribution normale bivariée par ses deux distributions marginales entre lesquelles nous avons introduit une corrélation ajustable. L'extension de cette approche à plus de deux variables est malcommode, et ne sera donc pas retenue.

Combinaisons linéaires des marginales

Il est possible de définir la distribution normale multivariée comme une distribution telle que toute combinaison linéaire de ses variables marginales soit normales (univariées).

En fait, nous obtiendrons ce résultat comme conséquence de la définition que nous retenons ci-dessous.

Transformation de la distribution normale multivariée sphérique standard

La distribution normale multivariée sphérique standard est définie comme la distribution conjointe de p variables normales (univariées) standard indépendantes.

Il est possible de définir la distribution normale multivariée générale comme la distribution obtenue en appliquant à cette distribution sphérique standard une transformation linéaire régulière quelconque.

Généralisation formelle de la distribution normale univariée

Dans ce Glossaire, nous définirons la distribution normale multivariée directement à partir de sa densité de probabilité, que nous choisirons de façon à ce qu'elle soit une généralisation formelle de la densité de probabilité normale univariée.

Cette dernière est :

f(x) = k.exp[-1/2.a(x - b)²]

k et a sont des coefficient appropriés (voir ici).

 

Nous généralisons cette expression au cas multidimensionnel de la façon suivante :

    * La variable x est remplacée par le vecteur à p composantes x = {x1, x2, ..., xp}.

    * Le coefficient de normalisation k est remplacé par le coefficient K dont le rôle sera également de garantir que l'intégrale de la densité soit égale à 1.

    * Le terme a(x - b)² est remplacé par une forme quadratique en (x - b), où b est un vecteur :

(x - b)A(x - b)'

Pour la distribution normale univariée, nous avons a = 1/², qui est strictement positif. Par analogie, nous imposerons que la matrice A soit symétrique et définie positive, propriété qui généralise aux matrices la notion de "positivité" pour les nombres réels.

-----

Donc, par définition, le vecteur aléatoire X = {X1, X2, ..., Xp} sera dit avoir une distribution normale multivariée si sa densité de probabilité peut être mise sous la forme suivante :

 

f(x) = K.exp[-1/2.(x - b)A(x - b)']

 

A est une matrice symétrique définie positive.

Propriétés élémentaires de la distribution normale multivariée

Dans le Tutoriel ci-dessous, nous établissons les résultats suivants :

Coefficient de normalisation

Rappelons que, pour la distribution normale univariée, nous avons :

Nous établirons que le coefficient de normalisation de la distribution normale multivariée est donné par :

 

 

où "det" désigne le déterminant.

Moyenne

Rappelons que, pour la distribution normale univariée, la moyenne µ de la distribution est égale à b.

Pour la distribution normale multivariée, nous montrerons que la moyenne de la distribution est égale au vecteur b :

 

E[X] = b

 

 

que nous pourrons donc par la suite rebaptiser µ.

Matrice de covariance

Rappelons que pour la distribution normale univariée, nous avons :

a = 1/²

Nous établirons que, pour la distribution normale multivariée :

 

A = -1

 

 est la matrice de covariance du vecteur X.

Forme définitive

Ayant établi ces résultats, nous pouvons énoncer le résultat final suivant :

 

La densité de probabilité d'un vecteur X multinormal est :

f(x) = (2)- p / 2.[det(-1)]-1/2 .exp[-1/2.(x - µ)-1(x - µ)'] 

 

 

que l'on notera N(µ, ) par analogie avec la notation N(µ, ²) de la distribution normale univariée.

-----

La similitude avec le cas univarié est parfaite, la matrice de covariance jouant, pour la distribution normale multivariée, le rôle que joue ² pour la distribution normale univariée.

On retrouve bien sûr la distribution normale univariée ordinaire lorsque X est un "vecteur" réduit à une seule composante.

Distributions marginales de la distribution normale multivariée

Soit X = {X1, X2, ..., Xp} un vecteur aléatoire.

Rappelons qu'une distribution marginale de X est la distribution conjointe d'un sous-ensemble quelconque des variables (X1, X2, ..., Xp). Il y a donc autant de distributions marginales qu'il y a de tels sous-ensembles, soit 2 p - 2 (en omettant le sous-ensemble vide et l'ensemble complet).

Cette illustration  montre les deux distributions marginales d'une distribution normale bivariée.

 

 

 

Nous montrerons que les distributions marginales de la distribution normale multivariée sont également multinormales, une propriété fondamentale.

Soit X = {X1, X2, ..., Xp} un vecteur à p dimensions de distribution multinormale, et considérons le vecteur X1 composé des k premières composantes de X :

X1 = {X1, X2, ..., Xk}       k < p

Les p composantes de X peuvent toujours être renumérotées de façons à ce que k composantes quelconques soient les k premières.

Alors :

 

* La distribution de X1 est multinormale.

* Les k composantes de son vecteur moyen sont les moyennes des k variables Xi.

* Sa matrice de covariance (d'ordre k) est constituée des covariances deux-à-deux des k variables Xi.

 

 

L'illustration ci-dessous représente la matrice de covariance du vecteur X :

 

 

La matrice de covariance X1 de X1 est simplement la sous-matrice carrée supérieure gauche d'ordre k de X  (image inférieure de l'illustration).

Cette matrice est traditionnellement notée 11.

-----

Lorsque k = 1, ce résultat montre en particulier que les composantes individuelles Xi du vecteur X = {X1, X2, ..., Xp} sont des variables normales (univariées).

Distributions conditionnelles de la distribution normale multivariée

Soit X = {X1, X2, ..., Xp} un vecteur aléatoire.

Rappelons qu'une distribution conditionnelle de X est la distribution conjointe d'un sous-ensemble quelconque des variables (X1, X2, ..., Xp) lorsque les autres variables sont maintenues fixes. Autrement dit, c'est la distribution (normalisée) d'une "coupe" de la distribution de X par un hyperplan défini par les valeurs, fixes, affectées aux autres variables.

Il y a donc autant de distributions conditionnelles qu'il y a de tels sous-ensembles, soit 2 p - 2 (en omettant le sous-ensemble vide et l'ensemble complet).

Cette illustration  montre une des deux distributions conditionnelles d'une distribution normale bivariée.

 

 

 

Soit X = {X1, X2, ..., Xp} un vecteur multinormal, que l'on partitionne en deux sous-vecteurs :

X = (X1, X2 )

Nous montrerons que la distribution de X1 conditionnellement à X2 est multinormale, une propriété fondamentale.

Nous montrerons de plus les deux propriétés suivantes, d'une grande importance :

 

* Le vecteur moyen de cette distribution conditionnelle dépend linéairement de X2.

* La matrice de covariance de cette distribution conditionnelle ne dépend pas de X2.

 

 

Ce dernier point signifie que si l'on déplace un hyperplan de coupe parallèlement à lui-même, il génère des sections de la distribution de X qui ont toutes la même matrice de covariance.

Distribution normale multivariée et Régression

Nous considérons maintenant le vecteur multinormal X = (X1, X2 ) du point de vue de la prédiction de X1 par X2.

L'identification des distributions conditionnelles de la distribution normale multivariée, et en particulier de l'espérance de X1 conditionnellement aux valeurs de X2 permet de considérer la distribution normale multivariée comme un modèle linéaire de régression.

Par exemple, la figure ci-dessous illustre la prédiction du vecteur X1 = (u, v) par l'unique quantité X2 = (w).

 

 

 

Cette illustration est reprise et commentée dans le Tutoriel ci-dessous.

 

Ce modèle a de fortes similarités avec celui de la Régression Linéaire Multiple (RLM) :

    * Relation linéaire entre les espérances des quantités à prédire et les prédicteurs.

    * Normalité et indépendance des résidus,

mais avec cependant deux différences importantes :

    * En RLM, les prédicteurs sont considérés comme fixes, et ne sont donc pas des variables aléatoires, alors qu'ici, X2 est un vecteur aléatoire.

    * La RLM cherche à prédire la valeur d'une unique variable y, alors qu'ici, nous utilisons le vecteur X2 pour prédire la valeur du vecteur X1, et donc de plusieurs variables simultanément.

 

Nous montrerons que le modèle basé sur les distributions conditionnelles de la distribution multinormale possède deux propriétés d'optimalité par rapport à tout autre modèle linéaire X1 = f(X2 ) :

    * Il minimise l'Erreur Quadratique Moyenne (EQM) entre prédictions et observations (résidus).

    * Il maximise le coefficient de corrélation entre chacune des variables et toute combinaison linéaire des autres variables utilisée pour prédire la valeur de cette variable. Ce coefficient s'appelle le Coefficient de Corrélation Multiple attaché à la variable, et nous calculerons sa valeur.

Fonction génératrice des moments de la distribution normale multivariée

Soit X~N(µ, ).

Nous montrerons que sa fonction génératrice des moments MX (t) est :

 

MX(t) = exp{t'µ + 1/2.t't}

 

t est un paramètre vectoriel.

Nous utiliserons ce résultat pour démontrer à nouveau et généraliser certains des résultats déjà établis dans les Tutoriels précédents.

Nous établirons enfin une propriété caractéristique de la distribution normale multivariée.

Formes quadratiques dans des variables normales multivariées

La Statistique rencontre souvent des formes quadratiques dans des variables normales mutivariées., en particulier :

    * En Analyse de la Variance,

    * En Régression Linéaire Multiple.

Sous certaines conditions, que nous détaillons ici, ces formes quadratiques suivent des distributions du .

----

Le carré de la distance de Mahalanobis est une forme quadratique dans une variable normale multivariée qui suit une distribution du Chi-2.

Simulation d'un vecteur multinormal

Nous expliquons ici comment l'association de la transformation de Box-Muller et de la transformation de Mahalanobis peut être utilisée pour simuler un vecteur multinormal quelconque.

___________________________________________________________________________

 

 

Tutoriel 1

 

Dans un premier temps, nous montrons qu'une transformation linéaire appropriée transforme la distribution multivariée générale en la distribution normale multivariée la plus simple qui soit : la distribution multinormale sphérique standard, définie comme étant la distribution conjointe de p variables normales standard indépendantes (image inférieure de l'illustration ci-dessous).

 

 

Cette transformation est un outil d'une utilité générale, puisqu'il permet de ramener de nombreux problèmes portant sur la distribution normale multivariée générale au même problème portant sur cette distribution particulièrement simple.

-----

De ce résultat, nous tirerons :

    * La valeur du coefficient de normalisation K,

    * Ainsi que la moyenne µ,

 de la distribution normale multivariée.

 

Puis nous calculerons la matrice de covariance  de la distribution normale multivariée, dont nous montrerons qu'elle est égale à A-1, un résultat fondamental.

 

 

 

LA DISTRIBUTION NORMALE MULTIVARIEE

Sphérisation de la distribution normale multivariée

Réduction à l'identité d'une matrice définie positive

Sphérisation

La transformation

Le jacobien

La distribution normale sphérique standard

Coefficient de normalisation de la distribution normale multivariée

Moyenne de la distribution normale multivariée

Matrice de covariance de la distribution normale multivariée

Forme complète de la distribution normale multivariée 

TUTORIEL

 ________________________________________________________________

 

 

Tutoriel 2

 

Dans ce Tutoriel, nous montrons que les distributions marginales de la distribution normale multivariée sont elles-mêmes multinormales, et nous en calculons les paramètres.

Il existe plusieurs façons d'établir ce résultat important. Nous en donnons trois.

    1) Nous utilisons d'abord une méthode très orthodoxe, un peu longue, mais qui reste assez proche de l'intuition. De plus elle permet de montrer le résultat important selon lequel la non-corrélation des variables marginales implique leur indépendance.

    - Dans un premier temps, nous montrerons qu'une transformation linéaire régulière transforme une distribution normale multivariée en une autre distribution normale multivariée, dont nous calculerons les caractéristiques. Ce lemme est d'une utilité universelle dans l'étude de la distribution multinormale.

    - Puis nous examinerons un cas particulier du problème général : nous établirons la multinormalité de la marginale X1 = {X1, X2, ..., Xk} lorsque chacune de ses composantes Xi (i k) est décorrélée avec toute autre composante Xj (j > k) de l'autre groupe X2 = {Xk + 1, X k + 2, ..., Xp}.

Au passage, nous en profiterons pour montrer que, alors, cette décorrélation est en fait une authentique indépendance.

     - Nous résoudrons enfin le problème général (aucune hypothèse sur la corrélation entre les composantes des deux marginales) en identifiant une tranformation qui permet de le ramener au cas particulier précédent. Nous serons alors capables d'en déduire la multinormalité des marginales de la distribution originale.

 

2) Nous donnons ensuite une seconde démonstration qui utilise le lemme mentionné ci-dessus pour court-circuiter tous les développements algébriques. Il permet d'atteindre le résultat en quelques lignes, aux dépends de l'intuition.

 

3) Finalement, nous utiliserons la fonction génératrice des moments de la distribution normale multivariée pour retrouver ce même résultat d'une façon simple et élégante (voir ci-dessous).

 

 

 

 

 

MULTINORMALITE DES DISTRIBUTIONS MARGINALES

DECORRELATION ET INDEPENDANCE DES VARIABLES MARGINALES

Transformé linéaire d'un vecteur multinormal

Transformée de la forme quadratique

Le jacobien de la transformation

La distribution du transformé est multinormale

Cas particulier : les deux groupes de variables sont décorrélés

Partitionnement de la matrice de covariance

Partitionnement de la forme quadratique

Multinormalité des distributions marginales

Décorrélation implique indépendance

Cas général

Transformation de la distribution multinormale initiale

Multinormalité des distributions marginales de la transformée

Multinormalité des distributions marginales de la distribution initiale

Deuxième démonstration

TUTORIEL

 ________________________________________________________________

 

 

Tutoriel 3

 

Dans ce Tutoriel, nous calculons les distributions conditionnelles de la distribution normale multivariée.

La méthode classique consiste à avoir recours à la propriété fondamentale des distributions conditionnelles, qui énonce qu'une telle distribution est égale au rapport :

    * De la distribution conjointe de toutes les variables,

    * Et de la distribution marginale des variables de conditionnement.

 

Dans le cas présent, la mise en œuvre directe de cette approche conduit à des calculs assez lourds, et nous préfèrerons passer par une étape intermédiaire de transformation du vecteur multinormal initial. La transformation inverse permettra alors d'obtenir la distribution multinormale initiale sous une forme factorisée qui rendra très simple le calcul des distributions conditionnelles.

-----

Nous constaterons alors les faits suivants :

    1) Une distribution conditionnelle de la distribution normale multivariée est multinormale.

    2) Son vecteur moyen dépend linéairement des variables de conditionnement.

    3) Sa matrice de covariance ne dépend pas des valeurs attribuées aux variables de conditionnement.

 

 

 

 

DISTRIBUTIONS CONDITIONNELLES

DE LA DISTRIBUTION NORMALE MULTIVARIEE

Décomposition de la densité conjointe

Transformation de la densité conjointe

Définition de la transformation

Vecteur moyen

Matrice de covariance

Décomposition de la densité transformée

Décomposition de la densité initiale

Distributions conditionnelles de la distribution normale multivariée

Les distributions conditionnelles sont multinormales

Le vecteur moyen dépend linéairement  des variables fixes

La matrice de covariance ne dépend pas des variables fixes

TUTORIEL

__________________________________________________________________

 

 

Tutoriel 4

 

Dans ce Tutoriel, nous considérons le vecteur multinormal X = (X1, X2 ) du point de vue de la prédiction de X1 par X2.

L'identification des distributions conditionnelles de la distribution normale multivariée, et en particulier de l'espérance de X1 conditionnellement aux valeurs de X2 permet de considérer la distribution normale multivariée comme un modèle linéaire de régression.

-----

Nous allons montrer que ce modèle possède deux propriétés d'optimalité par rapport à tout autre modèle linéaire :

    * Il minimise l'Erreur Quadratique Moyenne (EQM) entre prédictions et observations (résidus).

    * Il maximise le coefficient de corrélation entre chacune des variables et toute combinaison linéaire des autres variables utilisée pour prédire la valeur de cette variable. Ce coefficient s'appelle le Coefficient de Corrélation Multiple attaché à la variable, et nous calculerons sa valeur.

 

 

 

 

MINIMISATION DES ERREURS DE PREDICTION

MAXIMISATION DU COEFFICIENT DE CORRELATION MULTIPLE

Résidus

Vecteur résiduel

Décorrélation du vecteur résiduel et des prédicteurs

Minimisation de l'Erreur Quadratique Moyenne de prédiction

Coefficient de corrélation multiple

Corrélation entre observation et prédiction, corrélation multiple

Le modèle d'espérance conditionnelle maximise le coefficient de corrélation multiple

Valeur du coefficient de corrélation multiple 

TUTORIEL

______________________________________________________________________________

 

 

Tutoriel 5

 

Nous calculons maintenant la fonction génératrice des moments M(t) de la distribution normale multivariée. Le paramètre t est ici un vecteur, mais la fonction elle-même est scalaire.

Comme souvent, la f.g.m. s'avèrera être un outil à la fois puissant et pratique pour établir de nombreux résultats relatifs à une distribution d'une manière concise et élégante. Nous retrouverons ainsi quelques un des résultats déjà obtenus, parfois laborieusement, par l'Algèbre Linéaire. En particulier, nous généraliserons le résultat relatif aux transformations linéaires de vecteurs multinormaux :

    * Au cas d'une transformation par une matrice carrée non régulière.

    * Au cas d'une transformation par une matrice non carrée.

 

Nous établirons aussi une propriété caractéristique de la distribution multinormale : toute combinaison linéaire de ses composantes est une distribution normale (univariée). Rappelons que cette propriété caractéristique est parfois utilisée comme définition de la distribution normale multivariée.

 

 

 

FONCTION GENERATRICE DES MOMENTS

DE LA DISTRIBUTION MULTINORMALE

Fonction Génératrice des Moments de la distribution normale multivariée

Cas particulier : distribution multinormale sphérique standard

Cas général

Quelques conséquences immédiates de la f.g.m.

Transformé linéaire général d'un vecteur multinormal est multinormal

Les distributions marginales sont multinormales

Décorrélation et indépendance

Un vecteur est multinormal ssi toute combinaison linéaire de ses composantes est normale

La condition est nécessaire

La condition est suffisante

TUTORIEL

 

______________________________________________________

 

Voir aussi :

Distribution normale univariée

Distribution normale bivariée

Matrice définie positive

Matrice de covariance

Régression Linéaire Multiple

Formes quadratiques

Téléchargez ce Glossaire