Multinomiale  (Distribution, ou loi)

Définition de la distribution multinomiale

La distribution binomiale B(n, p) est obtenue en considérant une suite de n tirages indépendants au jeu de Pile ou Face, p étant la probabilité de tirer Pile.

La distribution multinomiale est une généralisation de la distribution binomiale au cas où chaque "lancer" peut produire non pas deux, mais plus de deux résultats différents. Par exemple, on pourra imaginer une suite de n lancers d'un "dé" à k faces, la face Ai ayant la probabilité pi de sortir.

Un distribution multinomiale  est donc caratérisée par la donnée de :

    * n, le nombre de lancers.

    * La suite {p1, p2 , ..., pk}       avec       p1p2 + ...,  pk = 1

-----

A la suite de n lancers, nous désignerons par ni le nombre de lancers ayant produit le résultat n°i. Nous avons donc n1n2 + ...,  nk = n. Les lancers étant aléatoires, les ni sont des réalisations de k variables aléatoires que nous noterons Xi  (i = 1, 2, ..., k). Ces variables ne sont pas indépendantes puisqu'elles sont liées par la relation Σi Xi  = n.

On appelle distribution multinomiale Mult(n; p1, p2 , ..., pk ) la distribution conjointe des k variables aléatoires Xi. C'est donc une distribution multivariée discrète. Son support est l'ensemble des k-uplets de nombres entiers positifs ou nuls {n1n2, ...,  nk} tels que n1n2 + ...+ nk = n.

Distribution de probabilité de la loi multinomiale

La distribution Mult(n; p1, p2 , ..., pk ) est entièrement déterminée par les valeurs des probabilités de chacun des k-uplets possibles. Ces probabilités sont notées P{X1 = n1, ..., Xk = nk }.

Nous montrerons que :

 

 

 

pour tous les k-uplets appartenant au support n1 + n2 + ... + nk  = n de la distribution (et 0 sinon).

-----

Si k = 2, on retrouve la distribution binomiale.

Coefficient multinomial

Le terme n! / (n1!.n2!...nk!) s'appelle le coefficient multinomial. Il est égal au nombre de "mots" que l'on peut construire à partir d'un alphabet comprenant k caractères en utilisant n1 fois le premier caractère, n2 fois le second caractère etc...

Nous justifierons ce résultat de deux façons différentes.

-----

On remarquera que le coefficient multinomial est égal au coefficient du monôme xn1xn2 ...xnk dans le développement de (x1 + x2 + ...+ xk )n, ce qui justifie le nom de la distribution.

Fonction génératrice des moments

La fonction génératrice des moments de la distribution multinomiale Mult(n, p1, p2 , ..., pk ) est :

 

Moyenne

Nous montrons ci-dessous que pour tout i, la variable Xi suit la distribution binomiale B(n, pi).

Donc :

E[Xi] = npi

Matrice de covariance de la distribution multinomiale

La distribution multinomiale est celle d'un vecteur aléatoire X = {X1, X2 , ..., Xk}. Il est donc naturel de calculer sa matrice de covariance.

Variances

Nous montrons ci-dessous que pour tout i, la variable Xi suit la distribution binomiale B(n, pi).

Donc :

Var(Xi) = n.pi(1 - pi)

Covariances

Nous donnerons deux démonstrations du résultat suivant :

 

Cov(Xi , Xj ) = -n pi pj

 

 

Les covariances sont toute négatives : le nombre de tirages n étant fixe, toute augmentation de ni s'accompagnera, en moyenne, d'une diminution des effectifs des autres modalités, et donc de nj.


Nous donnons également ici une troisième démonstration de ce résultat en ayant recours au Théorème de l'Espérance Itérée.

-----

En raison de la contrainte Σi Xi  = n qui lie les variables Xi, la matrice de covariance de la distribution multinomiale n'est pas de rang plein, un résultat que nous montrerons directement.

Coefficient de corrélation

En se rapportant à la définition du coefficient de corrélation de deux variables, nous avons :

 

 

 

 

On remarquera que n ne figure plus dans cette expression.

Fusion des catégories

Supposons que les r premières variables du vecteur X = {X1, X2 , ..., Xk} soient remplacées par une unique variable Y définie comme étant la somme de ces variables :

Y = X1 + X2 + ... + Xr

On dit que l'on a fusionné les r catégories {A1, ..., Ar }.

 

 Les variables Xi étant liées par la relation X1 + X2 + ... + Xk = n, nous avons également Y = n - (Xr + 1 + Xr + 2 + ... + Xk ).

Nous montrerons que

Le vecteur

{Y, Xr + 1, Xr + 2, ..., Xk} = {n - (Xr + 1 + Xr + 2 + ... + Xk ), Xr + 1, Xr + 2, ..., Xk}

suit la distribution Mult(n; p, pr +1, ..., pk ) avec p = p1p2 + ..., pr.

 

En d'autres termes:

    1) Fusionner les catégories.

    2) Puis affecter au résultat de la fusion une probabilité égale à la somme des probabilités des catégories fusionnées.

Le résultat est la distribution multinomiale de la nouvelle catégorie et des catégories restantes (non fusionnées).

Distribution marginales de la distribution multinomiale

Rappelons que Xi désigne le nombre d'observations dans la catégorie Ai.

Une seule composante

Considérons la catégorie Ai. Le résultat de chaque tirage :

    * Est Ai avec la probabilité pi.

    * Et donc n'est pas Ai (càd est n'importe quelle autre catégorie) avec la probabilité (1 - pi).

Xi suit donc la distribution binomiale B(n, pi).

Plusieurs composantes

Les choses sont un peu plus compliquées dans le cas où l'on s'intéresse à la distribution conjointe de plusieurs composantes.

Etant donnée la distribution multinomiale Mult(n; p1, p2 , ..., pk ), nous calculerons la distribution conjointe de {X1, X2, ..., Xr}, l'ensemble des r premières composantes, et constaterons que cette distribution n'est pas multinomiale.

C'est la raison pour laquelle la distribution du vecteur augmenté {X1, X2, ..., Xr, n - (X1 + X2 + ... + Xr)} qui, elle, est multinomiale, est pafois présentée comme étant la distribution marginale de la distribution multinomiale.

-----

Ce résultat se généralise immédiatement à tout groupe de composantes.

Distributions conditionnelles

Soit X = {X1, X2 , ..., Xk} un vecteur suivant la distribution multinomiale Mult(n; p1, p2 , ..., pk ).

Nous recherchons la distribution des r première composantes {X1, X2 , ..., Xr} de ce vecteur conditionnellement aux valeurs prises par les (k - r) dernières composantes. Nous voulons donc la distribution de la variable

{X1, X2 , ..., Xr | Xr + 1 = nr + 1, Xr + 2 = nr + 2, ..., Xk = nk + 2

Nous montrerons que cette distribution est multinomiale Mult(m; p'1, p'2 , ..., p'r ) avec :

    * m = n - (nr + 1 + nr + 2 + ... + nk + 2 )

    * p'i = pi /(p1+ p2 + ... + pr )     

-----

Ce résultat se généralise immédiatement à tout groupe de composantes.

Estimation des paramètres pi

Nous montrerons que l'Estimateur par Maximum de Vraisemblance du paramètre pi est :

 

Test d'adéquation

Les "tests du Chi-2" (adéquation, identité, indépendance, ...) sont parmi les plus importants des tests non paramétriques. Ils sont en fait un seul et même test, qui est un test d'adéquation de la distribution multinomiale. La statistique du test est le "Chi-2 de Pearson", dont nous démontrons ci-dessous que la distribution asymptotique est une distribution du χ2. Ce résulat est fondamental.

-----

Remarquons cependant que le test du Chi-2 n'est pas le seul test d'adéquation possible pour la distribution multinomiale. Nous construisons ici un Test du Rapport de Vraisemblance qui a exactement la même fonction que le test du Chi-2.

Lien avec la distribution de Poisson

Il existe un lien intime entre la distribution multinomiale et la distribution de Poisson. Nous avons montré ici que si {X1, X2, ..., Xk} sont k variables de Poisson indépendantes (mais dont les distributions ne sont pas nécessairement identiques), alors la distribution conjointe de {X1, X2, ..., Xk} conditionnellement à leur somme est une distribution multinomiale.

_____________________________________________________

 

 

Tutoriel 1

 

Nous calculons ici la distribution de probabilité de la distribution multinomiale. Celle-ci repose en partie sur le coefficient multinomial, dont nous établissons l'expression par deux méthodes différentes.

Nous calculons ensuite les estimateurs par Maximum de Vraisemblance des paramètres pi. Ce calcul est un simple exercice d'optimisation contrainte par la méthode des multiplicateurs de Lagrange.

 

 

DISTRIBUTION DE PROBABILITE DE LA DISTRIBUTION MULTINOMIALE

Distribution de probabilité

Le coefficient multinomial

Première démonstration

Deuxième démonstration

Estimation par Maximum de Vraisemblance des paramètres pi

TUTORIEL

____________________________________________________________

  

 

Tutoriel 2

 

Nous calculons ici par deux méthodes différentes la covariance des effectifs de deux catégories d'une distribution multinomiale. La seconde méthode fait appel à une représentation des effectifs d'une catégorie comme somme de variables de Bernoulli, technique qui s'avère être utile dans de nombreux problèmes touchant aux distributions discrètes (voir par exemple le calcul de la moyenne de la distribution hypergéométrique).


Rappelons que nous donnons également ici une troisième démonstration de ce résultat en ayant recours au Théorème de l'Espérance Itérée.

 

COVARIANCES DE LA DISTRIBUTION MULTINOMIALE

Calcul direct de la covariance

Deuxième démonstration par variables indicatrices

Effectif d'une modalité comme somme de variables de Bernoulli

Calcul de la covariance

La matrice de covariance n'est pas de rang plein

TUTORIEL

__________________________________________________________

 

 

Tutorial 3

 

Dans ce Tutoriel :

    1) Nous établissons la distribution du vecteur {Y, Xr + 1, Xr + 2, ..., Xk ) où Y est la somme des r premières composantes de X :

Y = X1X2 + ..., Xr 

Nous montrerons que cette distribution est multinomiale Mult(n; p, pr +1, ..., pk ) avec p = p1p2 + ..., pr.

    2) Nous calculerons ensuite la distribution conjointe de {X1, X2, ..., Xr }, la distribution marginale de la distribution multinomiale. Cette distribution n'est pas multinomiale : c'est la raison pour laquelle la distribution du vecteur augmenté {X1, X2, ..., Xr, n - (X1X2 + ..., Xr)}, qui est elle multinomiale, est parfois présentée comme la distribution marginale de X.

    3) Finalement, nous calculons la distribution conjointe d'un groupe de catégories conditionnellement aux valeurs prises par les autres catégories, et montrons que cette distribution est multinomiale (voir ici).

 

 

FUSION DE CATEGORIES

DISTRIBUTIONS MARGINALES ET CONDITIONNELLES

Fusion de catégories

Distributions marginales

Distributions conditionnelles

TUTORIAL

_________________________________

 

 

Tutoriel 4

 

Dans ce Tutoriel, nous démontrons le théorème fondamental dit "de Pearson", qui est le socle sur lequel reposent tous les tests du Chi-2. Le théorème affirme que la statistique du Chi-2 suit asymptotiquement une distribution du χ2.

Bien que l'Algèbre Linéaire puisse établir ce résultat en quelques lignes compactes, nous présentons une démonstration plus longue mais élémentaire qu'il est facile de suivre pas à pas.


Une alternative à la statistique du Chi-2 est le "G² de Wilks", dont le comportement est comparé ici à celui de la statistique du Chi-2.

 

 

THEOREME DE PEARSON

Théorème de Pearson

Le problème de l'adéquation pour la distribution multinomiale

La statistique du Chi-2

Origine de la statistique du Chi-2

La statistique du Chi-2 est "déraisonnable"

Le cas à deux modalités

Le vecteur Z

Définition du vecteur Z

Matrice de covariance du vecteur Z

La distribution du vecteur Z est dégénérée

La matrice de covariance n'est pas de rang plein

Sous-espace de Z

Un vecteur ayant la même matrice de covariance que Z

Projection sur un plan orthogonal à un vecteur unitaire

Projection d'un ensemble de variables normales standard

Matrice de covariance des variables projetées

Termes non diagonaux

Termes diagonaux

Rotation du système de coordonnées

La distribution asymptotique de la statistique du Chi-2 est χ2

TUTORIEL

 

 ______________________________________________________

 

Voir aussi:

Distribution binomiale

Distribution de Poisson

Tests du Chi-2

Téléchargez ce Glossaire