Multinomiale (Distribution, ou loi)
La distribution binomiale B(n, p) est obtenue en considérant une suite de n tirages indépendants au jeu de Pile ou Face, p étant la probabilité de tirer Pile.
La distribution multinomiale est une généralisation de la distribution binomiale au cas où chaque "lancer" peut produire non pas deux, mais plus de deux résultats différents. Par exemple, on pourra imaginer une suite de n lancers d'un "dé" à k faces, la face Ai ayant la probabilité pi de sortir.
Un distribution multinomiale est donc caratérisée par la donnée de :
* n, le nombre de lancers.
* La suite {p1, p2 , ..., pk} avec p1 + p2 + ..., pk = 1
-----
A la suite de n lancers, nous désignerons par ni le nombre de lancers ayant produit le résultat n°i. Nous avons donc n1 + n2 + ..., nk = n. Les lancers étant aléatoires, les ni sont des réalisations de k variables aléatoires que nous noterons Xi (i = 1, 2, ..., k). Ces variables ne sont pas indépendantes puisqu'elles sont liées par la relation Σi Xi = n.
On appelle distribution multinomiale Mult(n; p1, p2 , ..., pk ) la distribution conjointe des k variables aléatoires Xi. C'est donc une distribution multivariée discrète. Son support est l'ensemble des k-uplets de nombres entiers positifs ou nuls {n1, n2, ..., nk} tels que n1 + n2 + ...+ nk = n.
La distribution Mult(n; p1, p2 , ..., pk ) est entièrement déterminée par les valeurs des probabilités de chacun des k-uplets possibles. Ces probabilités sont notées P{X1 = n1, ..., Xk = nk }.
Nous montrerons que :
|
|
pour tous les k-uplets appartenant au support n1 + n2 + ... + nk = n de la distribution (et 0 sinon).
Si k = 2, on retrouve la distribution binomiale.
Le terme n! / (n1!.n2!...nk!) s'appelle le coefficient multinomial. Il est égal au nombre de "mots" que l'on peut construire à partir d'un alphabet comprenant k caractères en utilisant n1 fois le premier caractère, n2 fois le second caractère etc...
Nous justifierons ce résultat de deux façons différentes.
On remarquera que le coefficient multinomial est égal au coefficient du monôme xn1xn2 ...xnk dans le développement de (x1 + x2 + ...+ xk )n, ce qui justifie le nom de la distribution.
La fonction génératrice des moments de la distribution multinomiale Mult(n, p1, p2 , ..., pk ) est :
|
|
Nous montrons ci-dessous que pour tout i, la variable Xi suit la distribution binomiale B(n, pi).
Donc :
|
E[Xi] = npi |
La distribution multinomiale est celle d'un vecteur aléatoire X = {X1, X2 , ..., Xk}. Il est donc naturel de calculer sa matrice de covariance.
Nous montrons ci-dessous que pour tout i, la variable Xi suit la distribution binomiale B(n, pi).
Donc :
|
Var(Xi) = n.pi(1 - pi) |
Nous donnerons deux démonstrations du résultat suivant :
|
Cov(Xi , Xj ) = -n pi pj |
Les covariances sont toute négatives : le nombre de tirages n étant fixe, toute augmentation de ni s'accompagnera, en moyenne, d'une diminution des effectifs des autres modalités, et donc de nj.
Nous donnons également ici une troisième démonstration de ce résultat en ayant recours au Théorème de l'Espérance Itérée.
-----
En raison de la contrainte Σi Xi = n qui lie les variables Xi, la matrice de covariance de la distribution multinomiale n'est pas de rang plein, un résultat que nous montrerons directement.
En se rapportant à la définition du coefficient de corrélation de deux variables, nous avons :
|
|
On remarquera que n ne figure plus dans cette expression.
Supposons que les r premières variables du vecteur X = {X1, X2 , ..., Xk} soient remplacées par une unique variable Y définie comme étant la somme de ces variables :
Y = X1 + X2 + ... + Xr
On dit que l'on a fusionné les r catégories {A1, ..., Ar }.

Les variables Xi étant liées par la relation X1 + X2 + ... + Xk = n, nous avons également Y = n - (Xr + 1 + Xr + 2 + ... + Xk ).
Nous montrerons que
|
Le vecteur {Y, Xr + 1, Xr + 2, ..., Xk} = {n - (Xr + 1 + Xr + 2 + ... + Xk ), Xr + 1, Xr + 2, ..., Xk} suit la distribution Mult(n; p, pr +1, ..., pk ) avec p = p1 + p2 + ..., pr. |
En d'autres termes:
1) Fusionner les catégories.
2) Puis affecter au résultat de la fusion une probabilité égale à la somme des probabilités des catégories fusionnées.
Le résultat est la distribution multinomiale de la nouvelle catégorie et des catégories restantes (non fusionnées).
Rappelons que Xi désigne le nombre d'observations dans la catégorie Ai.
Considérons la catégorie Ai. Le résultat de chaque tirage :
* Est Ai avec la probabilité pi.
* Et donc n'est pas Ai (càd est n'importe quelle autre catégorie) avec la probabilité (1 - pi).
Xi suit donc la distribution binomiale B(n, pi).
Les choses sont un peu plus compliquées dans le cas où l'on s'intéresse à la distribution conjointe de plusieurs composantes.
Etant donnée la distribution multinomiale Mult(n; p1, p2 , ..., pk ), nous calculerons la distribution conjointe de {X1, X2, ..., Xr}, l'ensemble des r premières composantes, et constaterons que cette distribution n'est pas multinomiale.
C'est la raison pour laquelle la distribution du vecteur augmenté {X1, X2, ..., Xr, n - (X1 + X2 + ... + Xr)} qui, elle, est multinomiale, est pafois présentée comme étant la distribution marginale de la distribution multinomiale.
-----
Ce résultat se généralise immédiatement à tout groupe de composantes.
Distributions conditionnelles
Soit X = {X1, X2 , ..., Xk} un vecteur suivant la distribution multinomiale Mult(n; p1, p2 , ..., pk ).
Nous recherchons la distribution des r première composantes {X1, X2 , ..., Xr} de ce vecteur conditionnellement aux valeurs prises par les (k - r) dernières composantes. Nous voulons donc la distribution de la variable
{X1, X2 , ..., Xr | Xr + 1 = nr + 1, Xr + 2 = nr + 2, ..., Xk = nk + 2 }
Nous montrerons que cette distribution est multinomiale Mult(m; p'1, p'2 , ..., p'r ) avec :
* m = n - (nr + 1 + nr + 2 + ... + nk + 2 )
* p'i = pi /(p1+ p2 + ... + pr )
-----
Ce résultat se généralise immédiatement à tout groupe de composantes.
Nous montrerons que l'Estimateur par Maximum de Vraisemblance du paramètre pi est :
|
|
Test d'adéquation
Les "tests du Chi-2" (adéquation, identité, indépendance, ...) sont parmi les plus importants des tests non paramétriques. Ils sont en fait un seul et même test, qui est un test d'adéquation de la distribution multinomiale. La statistique du test est le "Chi-2 de Pearson", dont nous démontrons ci-dessous que la distribution asymptotique est une distribution du χ2. Ce résulat est fondamental.
-----
Remarquons cependant que le test du Chi-2 n'est pas le seul test d'adéquation possible pour la distribution multinomiale. Nous construisons ici un Test du Rapport de Vraisemblance qui a exactement la même fonction que le test du Chi-2.
Il existe un lien intime entre la distribution multinomiale et la distribution de Poisson. Nous avons montré ici que si {X1, X2, ..., Xk} sont k variables de Poisson indépendantes (mais dont les distributions ne sont pas nécessairement identiques), alors la distribution conjointe de {X1, X2, ..., Xk} conditionnellement à leur somme est une distribution multinomiale.
_____________________________________________________
|
Tutoriel 1 |
Nous calculons ici la distribution de probabilité de la distribution multinomiale. Celle-ci repose en partie sur le coefficient multinomial, dont nous établissons l'expression par deux méthodes différentes.
Nous calculons ensuite les estimateurs par Maximum de Vraisemblance des paramètres pi. Ce calcul est un simple exercice d'optimisation contrainte par la méthode des multiplicateurs de Lagrange.
DISTRIBUTION DE PROBABILITE DE LA DISTRIBUTION MULTINOMIALE
|
Distribution de probabilité Le coefficient multinomial Première démonstration Deuxième démonstration Estimation par Maximum de Vraisemblance des paramètres pi |
||
|
TUTORIEL |
||
____________________________________________________________
|
Tutoriel 2 |
Nous calculons ici par deux méthodes différentes la covariance des effectifs de deux catégories d'une distribution multinomiale. La seconde méthode fait appel à une représentation des effectifs d'une catégorie comme somme de variables de Bernoulli, technique qui s'avère être utile dans de nombreux problèmes touchant aux distributions discrètes (voir par exemple le calcul de la moyenne de la distribution hypergéométrique).
Rappelons que nous donnons également ici une troisième démonstration de ce résultat en ayant recours au Théorème de l'Espérance Itérée.
COVARIANCES DE LA DISTRIBUTION MULTINOMIALE
|
Calcul direct de la covariance Deuxième démonstration par variables indicatrices Effectif d'une modalité comme somme de variables de Bernoulli Calcul de la covariance La matrice de covariance n'est pas de rang plein |
||
|
TUTORIEL |
||
__________________________________________________________
|
Tutorial 3 |
Dans ce Tutoriel :
1) Nous établissons la distribution du vecteur {Y, Xr + 1, Xr + 2, ..., Xk ) où Y est la somme des r premières composantes de X :
Y = X1 + X2 + ..., Xr
Nous montrerons que cette distribution est multinomiale Mult(n; p, pr +1, ..., pk ) avec p = p1 + p2 + ..., pr.
2) Nous calculerons ensuite la distribution conjointe de {X1, X2, ..., Xr }, la distribution marginale de la distribution multinomiale. Cette distribution n'est pas multinomiale : c'est la raison pour laquelle la distribution du vecteur augmenté {X1, X2, ..., Xr, n - (X1 + X2 + ..., Xr)}, qui est elle multinomiale, est parfois présentée comme la distribution marginale de X.
3) Finalement, nous calculons la distribution conjointe d'un groupe de catégories conditionnellement aux valeurs prises par les autres catégories, et montrons que cette distribution est multinomiale (voir ici).
FUSION DE CATEGORIES
DISTRIBUTIONS MARGINALES ET CONDITIONNELLES
|
Fusion de catégories Distributions marginales Distributions conditionnelles |
||
|
TUTORIAL |
||
_________________________________
|
Tutoriel 4 |
Dans ce Tutoriel, nous démontrons le théorème fondamental dit "de Pearson", qui est le socle sur lequel reposent tous les tests du Chi-2. Le théorème affirme que la statistique du Chi-2 suit asymptotiquement une distribution du χ2.
Bien que l'Algèbre Linéaire puisse établir ce résultat en quelques lignes compactes, nous présentons une démonstration plus longue mais élémentaire qu'il est facile de suivre pas à pas.
Une alternative à la statistique du Chi-2 est le
"G² de Wilks", dont le comportement est comparé ici
à celui de la statistique du Chi-2.
THEOREME DE PEARSON
|
Théorème de Pearson Le problème de l'adéquation pour la distribution multinomiale La statistique du Chi-2 Origine de la statistique du Chi-2 La statistique du Chi-2 est "déraisonnable" Le cas à deux modalités Le vecteur Z Définition du vecteur Z Matrice de covariance du vecteur Z La distribution du vecteur Z est dégénérée La matrice de covariance n'est pas de rang plein Sous-espace de Z Un vecteur ayant la même matrice de covariance que Z Projection sur un plan orthogonal à un vecteur unitaire Projection d'un ensemble de variables normales standard Matrice de covariance des variables projetées Termes non diagonaux Termes diagonaux Rotation du système de coordonnées La distribution asymptotique de la statistique du Chi-2 est χ2 |
||
|
TUTORIEL |
||
______________________________________________________
Voir aussi: