Normale multivariée (Distribution)
Nous vous suggérons dans un premier temps de vous reporter à l'entrée relative à la distribution normale bivariée.
-----
La distribution normale multivariée (ou "multinormale") est la plus importante des distributions multidimensionnelles. Il est fréquent que des données réelles aient une distribution conjointe qui soit approximativement multinormale, et des techniques comme l'Analyse Discriminante font explicitement appel à cette hypothèse.
Nous cherchons à généraliser la distribution normale ordinaire aux vecteurs aléatoires. Il existe plusieurs façons de le faire.
Commençons par insister sur ce qu'une distribution multinormale n'est pas.
L'approche la plus simple consisterait à "définir" la distribution normale multivariée comme une distribution dont toutes les distributions marginales soient normales.
Mais nous savons qu'il existe des distributions bidimensionnelles dont les distributions marginales sont normales, et qui pourtant ne sont pas binormales.
Nous devons donc renoncer à définir la distribution normale multivariée de cette façon.
Nous avons défini la distribution normale bivariée par ses deux distributions marginales entre lesquelles nous avons introduit une corrélation ajustable. L'extension de cette approche à plus de deux variables est malcommode, et ne sera donc pas retenue.
Il est possible de définir la distribution normale multivariée comme une distribution telle que toute combinaison linéaire de ses variables marginales soit normales (univariées).
En fait, nous obtiendrons ce résultat comme conséquence de la définition que nous retenons ci-dessous.
La distribution normale multivariée sphérique standard est définie comme la distribution conjointe de p variables normales (univariées) standard indépendantes.
Il est possible de définir la distribution normale multivariée générale comme la distribution obtenue en appliquant à cette distribution sphérique standard une transformation linéaire régulière quelconque.
Dans ce Glossaire, nous définirons la distribution normale multivariée directement à partir de sa densité de probabilité, que nous choisirons de façon à ce qu'elle soit une généralisation formelle de la densité de probabilité normale univariée.
Cette dernière est :
f(x) = k.exp[-1/2.a(x - b)²]
où k et a sont des coefficient appropriés (voir ici).
Nous généralisons cette expression au cas multidimensionnel de la façon suivante :
* La variable x est remplacée par le vecteur à p composantes x = {x1, x2, ..., xp}.
* Le coefficient de normalisation k est remplacé par le coefficient K dont le rôle sera également de garantir que l'intégrale de la densité soit égale à 1.
* Le terme a(x - b)² est remplacé par une forme quadratique en (x - b), où b est un vecteur :
(x - b)A(x - b)'
Pour la distribution normale univariée, nous avons
a = 1/
²,
qui est strictement positif. Par analogie, nous imposerons que la matrice A
soit symétrique et définie
positive, propriété qui généralise aux matrices la notion de "positivité"
pour les nombres réels.
-----
Donc, par définition, le vecteur aléatoire X = {X1, X2, ..., Xp} sera dit avoir une distribution normale multivariée si sa densité de probabilité peut être mise sous la forme suivante :
|
f(x) = K.exp[-1/2.(x - b)A(x - b)'] |
où A est une matrice symétrique définie positive.
Dans le Tutoriel ci-dessous, nous établissons les résultats suivants :
Rappelons que, pour la distribution normale univariée, nous avons :

Nous établirons que le coefficient de normalisation de la distribution normale multivariée est donné par :
|
|
où "det" désigne le déterminant.
Rappelons que, pour la distribution normale univariée, la moyenne µ de la distribution est égale à b.
Pour la distribution normale multivariée, nous montrerons que la moyenne de la distribution est égale au vecteur b :
|
E[X] = b |
que nous pourrons donc par la suite rebaptiser µ.
Rappelons que pour la distribution normale univariée, nous avons :
a = 1/
²
Nous établirons que, pour la distribution normale multivariée :
|
A = |
où
est
la matrice de covariance du vecteur
X.
Ayant établi ces résultats, nous pouvons énoncer le résultat final suivant :
|
La densité de probabilité d'un vecteur X multinormal est : f(x) = (2 |
que l'on notera N(µ,
)
par analogie avec la notation N(µ,
²)
de la distribution normale univariée.
-----
La similitude avec le cas univarié est parfaite, la
matrice de covariance
jouant, pour la distribution normale multivariée, le rôle que joue
²
pour la distribution normale univariée.
On retrouve bien sûr la distribution normale univariée ordinaire lorsque X est un "vecteur" réduit à une seule composante.
Soit X = {X1, X2, ..., Xp} un vecteur aléatoire.
Rappelons qu'une distribution marginale de X est la distribution conjointe d'un sous-ensemble quelconque des variables (X1, X2, ..., Xp). Il y a donc autant de distributions marginales qu'il y a de tels sous-ensembles, soit 2 p - 2 (en omettant le sous-ensemble vide et l'ensemble complet).
Cette illustration montre les deux distributions marginales d'une distribution normale bivariée.

Nous montrerons que les distributions marginales de la distribution normale multivariée sont également multinormales, une propriété fondamentale.
Soit X = {X1, X2, ..., Xp} un vecteur à p dimensions de distribution multinormale, et considérons le vecteur X1 composé des k premières composantes de X :
X1 = {X1, X2, ..., Xk} k < p
Les p composantes de X peuvent toujours être renumérotées de façons à ce que k composantes quelconques soient les k premières.
Alors :
|
* La distribution de X1 est multinormale. * Les k composantes de son vecteur moyen sont les moyennes des k variables Xi. * Sa matrice de covariance (d'ordre k) est constituée des covariances deux-à-deux des k variables Xi. |
L'illustration ci-dessous représente la matrice de covariance du vecteur X :
La matrice de covariance
X1 de
X1 est simplement la sous-matrice carrée supérieure
gauche d'ordre k de
X
(image inférieure de l'illustration).
Cette matrice est traditionnellement notée
11.
-----
Lorsque k = 1, ce résultat montre en particulier que les composantes individuelles Xi du vecteur X = {X1, X2, ..., Xp} sont des variables normales (univariées).
Soit X = {X1, X2, ..., Xp} un vecteur aléatoire.
Rappelons qu'une distribution conditionnelle de X est la distribution conjointe d'un sous-ensemble quelconque des variables (X1, X2, ..., Xp) lorsque les autres variables sont maintenues fixes. Autrement dit, c'est la distribution (normalisée) d'une "coupe" de la distribution de X par un hyperplan défini par les valeurs, fixes, affectées aux autres variables.
Il y a donc autant de distributions conditionnelles qu'il y a de tels sous-ensembles, soit 2 p - 2 (en omettant le sous-ensemble vide et l'ensemble complet).
Cette illustration montre une des deux distributions conditionnelles d'une distribution normale bivariée.

Soit X = {X1, X2, ..., Xp} un vecteur multinormal, que l'on partitionne en deux sous-vecteurs :
X = (X1, X2 )
Nous montrerons que la distribution de X1 conditionnellement à X2 est multinormale, une propriété fondamentale.
Nous montrerons de plus les deux propriétés suivantes, d'une grande importance :
|
* Le vecteur moyen de cette distribution conditionnelle dépend linéairement de X2. * La matrice de covariance de cette distribution conditionnelle ne dépend pas de X2. |
Ce dernier point signifie que si l'on déplace un hyperplan de coupe parallèlement à lui-même, il génère des sections de la distribution de X qui ont toutes la même matrice de covariance.
Nous considérons maintenant le vecteur multinormal X = (X1, X2 ) du point de vue de la prédiction de X1 par X2.
L'identification des distributions conditionnelles de la distribution normale multivariée, et en particulier de l'espérance de X1 conditionnellement aux valeurs de X2 permet de considérer la distribution normale multivariée comme un modèle linéaire de régression.
Par exemple, la figure ci-dessous illustre la prédiction du vecteur X1 = (u, v) par l'unique quantité X2 = (w).

Cette illustration est reprise et commentée dans le Tutoriel ci-dessous.
Ce modèle a de fortes similarités avec celui de la Régression Linéaire Multiple (RLM) :
* Relation linéaire entre les espérances des quantités à prédire et les prédicteurs.
* Normalité et indépendance des résidus,
mais avec cependant deux différences importantes :
* En RLM, les prédicteurs sont considérés comme fixes, et ne sont donc pas des variables aléatoires, alors qu'ici, X2 est un vecteur aléatoire.
* La RLM cherche à prédire la valeur d'une unique variable y, alors qu'ici, nous utilisons le vecteur X2 pour prédire la valeur du vecteur X1, et donc de plusieurs variables simultanément.
Nous montrerons que le modèle basé sur les distributions conditionnelles de la distribution multinormale possède deux propriétés d'optimalité par rapport à tout autre modèle linéaire X1 = f(X2 ) :
* Il minimise l'Erreur Quadratique Moyenne (EQM) entre prédictions et observations (résidus).
* Il maximise le coefficient de corrélation entre chacune des variables et toute combinaison linéaire des autres variables utilisée pour prédire la valeur de cette variable. Ce coefficient s'appelle le Coefficient de Corrélation Multiple attaché à la variable, et nous calculerons sa valeur.
Soit X~N(µ,
).
Nous montrerons que sa fonction génératrice des moments MX (t) est :
|
MX(t)
= exp{t'µ + 1/2.t' |
où t est un paramètre vectoriel.
Nous utiliserons ce résultat pour démontrer à nouveau et généraliser certains des résultats déjà établis dans les Tutoriels précédents.
Nous établirons enfin une propriété caractéristique de la distribution normale multivariée.
La Statistique rencontre souvent des formes quadratiques dans des variables normales mutivariées., en particulier :
* En Analyse de la Variance,
* En Régression Linéaire Multiple.
Sous certaines conditions, que nous détaillons ici, ces
formes quadratiques suivent des distributions du
.
----
Le carré de la distance de Mahalanobis est une forme quadratique dans une variable normale multivariée qui suit une distribution du Chi-2.
Nous expliquons ici comment l'association de la transformation de Box-Muller et de la transformation de Mahalanobis peut être utilisée pour simuler un vecteur multinormal quelconque.
___________________________________________________________________________
|
Tutoriel 1 |
Dans un premier temps, nous montrons qu'une transformation linéaire appropriée transforme la distribution multivariée générale en la distribution normale multivariée la plus simple qui soit : la distribution multinormale sphérique standard, définie comme étant la distribution conjointe de p variables normales standard indépendantes (image inférieure de l'illustration ci-dessous).
Cette transformation est un outil d'une utilité générale, puisqu'il permet de ramener de nombreux problèmes portant sur la distribution normale multivariée générale au même problème portant sur cette distribution particulièrement simple.
-----
De ce résultat, nous tirerons :
* La valeur du coefficient de normalisation K,
* Ainsi que la moyenne µ,
de la distribution normale multivariée.
Puis nous calculerons
la matrice de covariance
de
la distribution normale multivariée, dont nous montrerons qu'elle est égale
à A-1, un résultat fondamental.
LA DISTRIBUTION NORMALE MULTIVARIEE
|
Sphérisation de la distribution normale multivariée Réduction à l'identité d'une matrice définie positive Sphérisation La transformation Le jacobien La distribution normale sphérique standard Coefficient de normalisation de la distribution normale multivariée Moyenne de la distribution normale multivariée Matrice de covariance de la distribution normale multivariée Forme complète de la distribution normale multivariée |
||
|
TUTORIEL |
||
________________________________________________________________
|
Tutoriel 2 |
Dans ce Tutoriel, nous montrons que les distributions marginales de la distribution normale multivariée sont elles-mêmes multinormales, et nous en calculons les paramètres.
Il existe plusieurs façons d'établir ce résultat important. Nous en donnons trois.
1) Nous utilisons d'abord une méthode très orthodoxe, un peu longue, mais qui reste assez proche de l'intuition. De plus elle permet de montrer le résultat important selon lequel la non-corrélation des variables marginales implique leur indépendance.
- Dans un premier temps, nous montrerons qu'une transformation linéaire régulière transforme une distribution normale multivariée en une autre distribution normale multivariée, dont nous calculerons les caractéristiques. Ce lemme est d'une utilité universelle dans l'étude de la distribution multinormale.
- Puis nous examinerons un cas particulier du problème
général : nous établirons la multinormalité de la marginale X1
= {X1, X2, ..., Xk}
lorsque chacune de ses composantes Xi (i
k) est décorrélée avec toute autre composante Xj (j
> k) de l'autre groupe X2
= {Xk + 1, X k
+ 2, ..., Xp}.
Au passage, nous en profiterons pour montrer que, alors, cette décorrélation est en fait une authentique indépendance.
- Nous résoudrons enfin le problème général (aucune hypothèse sur la corrélation entre les composantes des deux marginales) en identifiant une tranformation qui permet de le ramener au cas particulier précédent. Nous serons alors capables d'en déduire la multinormalité des marginales de la distribution originale.
2) Nous donnons ensuite une seconde démonstration qui utilise le lemme mentionné ci-dessus pour court-circuiter tous les développements algébriques. Il permet d'atteindre le résultat en quelques lignes, aux dépends de l'intuition.
3) Finalement, nous utiliserons la fonction génératrice des moments de la distribution normale multivariée pour retrouver ce même résultat d'une façon simple et élégante (voir ci-dessous).
MULTINORMALITE DES DISTRIBUTIONS MARGINALES
DECORRELATION ET INDEPENDANCE DES VARIABLES MARGINALES
|
Transformé linéaire d'un vecteur multinormal Transformée de la forme quadratique Le jacobien de la transformation La distribution du transformé est multinormale Cas particulier : les deux groupes de variables sont décorrélés Partitionnement de la matrice de covariance Partitionnement de la forme quadratique Multinormalité des distributions marginales Décorrélation implique indépendance Cas général Transformation de la distribution multinormale initiale Multinormalité des distributions marginales de la transformée Multinormalité des distributions marginales de la distribution initiale Deuxième démonstration |
||
|
TUTORIEL |
||
________________________________________________________________
|
Tutoriel 3 |
Dans ce Tutoriel, nous calculons les distributions conditionnelles de la distribution normale multivariée.
La méthode classique consiste à avoir recours à la propriété fondamentale des distributions conditionnelles, qui énonce qu'une telle distribution est égale au rapport :
* De la distribution conjointe de toutes les variables,
* Et de la distribution marginale des variables de conditionnement.
Dans le cas présent, la mise en œuvre directe de cette approche conduit à des calculs assez lourds, et nous préfèrerons passer par une étape intermédiaire de transformation du vecteur multinormal initial. La transformation inverse permettra alors d'obtenir la distribution multinormale initiale sous une forme factorisée qui rendra très simple le calcul des distributions conditionnelles.
-----
Nous constaterons alors les faits suivants :
1) Une distribution conditionnelle de la distribution normale multivariée est multinormale.
2) Son vecteur moyen dépend linéairement des variables de conditionnement.
3) Sa matrice de covariance ne dépend pas des valeurs attribuées aux variables de conditionnement.
DISTRIBUTIONS CONDITIONNELLES
DE LA DISTRIBUTION NORMALE MULTIVARIEE
|
Décomposition de la densité conjointe Transformation de la densité conjointe Définition de la transformation Vecteur moyen Matrice de covariance Décomposition de la densité transformée Décomposition de la densité initiale Distributions conditionnelles de la distribution normale multivariée Les distributions conditionnelles sont multinormales Le vecteur moyen dépend linéairement des variables fixes La matrice de covariance ne dépend pas des variables fixes |
||
|
TUTORIEL |
||
__________________________________________________________________
|
Tutoriel 4 |
Dans ce Tutoriel, nous considérons le vecteur multinormal X = (X1, X2 ) du point de vue de la prédiction de X1 par X2.
L'identification des distributions conditionnelles de la distribution normale multivariée, et en particulier de l'espérance de X1 conditionnellement aux valeurs de X2 permet de considérer la distribution normale multivariée comme un modèle linéaire de régression.
-----
Nous allons montrer que ce modèle possède deux propriétés d'optimalité par rapport à tout autre modèle linéaire :
* Il minimise l'Erreur Quadratique Moyenne (EQM) entre prédictions et observations (résidus).
* Il maximise le coefficient de corrélation entre chacune des variables et toute combinaison linéaire des autres variables utilisée pour prédire la valeur de cette variable. Ce coefficient s'appelle le Coefficient de Corrélation Multiple attaché à la variable, et nous calculerons sa valeur.
MINIMISATION DES ERREURS DE PREDICTION
MAXIMISATION DU COEFFICIENT DE CORRELATION MULTIPLE
|
Résidus Vecteur résiduel Décorrélation du vecteur résiduel et des prédicteurs Minimisation de l'Erreur Quadratique Moyenne de prédiction Coefficient de corrélation multiple Corrélation entre observation et prédiction, corrélation multiple Le modèle d'espérance conditionnelle maximise le coefficient de corrélation multiple Valeur du coefficient de corrélation multiple |
||
|
TUTORIEL |
||
______________________________________________________________________________
|
Tutoriel 5 |
Nous calculons maintenant la fonction génératrice des moments M(t) de la distribution normale multivariée. Le paramètre t est ici un vecteur, mais la fonction elle-même est scalaire.
Comme souvent, la f.g.m. s'avèrera être un outil à la fois puissant et pratique pour établir de nombreux résultats relatifs à une distribution d'une manière concise et élégante. Nous retrouverons ainsi quelques un des résultats déjà obtenus, parfois laborieusement, par l'Algèbre Linéaire. En particulier, nous généraliserons le résultat relatif aux transformations linéaires de vecteurs multinormaux :
* Au cas d'une transformation par une matrice carrée non régulière.
* Au cas d'une transformation par une matrice non carrée.
Nous établirons aussi une propriété caractéristique de la distribution multinormale : toute combinaison linéaire de ses composantes est une distribution normale (univariée). Rappelons que cette propriété caractéristique est parfois utilisée comme définition de la distribution normale multivariée.
FONCTION GENERATRICE DES MOMENTS
DE LA DISTRIBUTION MULTINORMALE
|
Fonction Génératrice des Moments de la distribution normale multivariée Cas particulier : distribution multinormale sphérique standard Cas général Quelques conséquences immédiates de la f.g.m. Transformé linéaire général d'un vecteur multinormal est multinormal Les distributions marginales sont multinormales Décorrélation et indépendance Un vecteur est multinormal ssi toute combinaison linéaire de ses composantes est normale La condition est nécessaire La condition est suffisante |
||
|
TUTORIEL |
||
______________________________________________________
Voir aussi :
|