Hypergéometrique  (Distribution, ou loi)

Une urne contient N boules, dont :

avec B + R = N.

 

Un échantillon de n boules est tiré sans remise de l'urne. Autrement dit, n boules (l'échantillon) sont sélectionnées au hasard, puis retirées de l'urne.

On note b le nombre de boules blanches présentes dans l'échantillon (qui contient donc r = n - b boules rouges). Ce nombre est la réalisation d'une variable aléatoire X dont distribution est connue sous le nom de distribution hypergéométrique.

La distribution hypergéométrique dépend des trois paramètres N, B et n, et sera notée HG(N, B, n).

Animation

Cette animation illustre la distribution hypergéométrique.

  

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

 

L'urne

    Positionnement des boules

Dans les problèmes probabilistes impliquant la célèbre "urne", il est le plus souvent admis implicitement que les boules sont positionnées aléatoirement dans l'urne. Cette hypothèse n'est pas nécessaire si le tirage est effectivement aléatoire (ceci peut être démontré).

Pour la clarté de l'animation, les "boules" (rectangulaires) blanches sont toutes dans la partie gauche de l'urne, et les boules rouges sont toutes dans la partie droite de l'urne.
 

    Contrôle du nombre de boules

        * Population totale de l'urne

            La population totale (B + R) est lue dans l'affichage "N". Ce nombre n'est pas directement ajustable. Il l'est, indirectement, en changeant les valeurs respectives des nombres de boules blanches et rouges.

La population totale est supérieure à 2 et inférieure à 30.

        * Nombre de boules blanches

            Le nombre de boules blanches est réglé par les boutons "W". Le plus petit nombre de boules blanches est 1, le plus grand est tel que la population totale de l'urne ne dépasse pas 30.

        * Nombre de boules rouges

            Comme pour les boules blanches, mais avec les boutons "R".

 

L'échantillon

    L'échantillon est matérialisé par des flèches (blanches ou rouges) pointant vers les boules qui ont été sélectionnées.

    La taille de l'échantillon est réglé par les boutons "Sample size". Sa valeur est au moins de 1, et au plus N - 1.

    Notez qu'en réduisant exagérément le nombre de boules blanches ou rouges, la population totale de l'urne pourrait devenir inférieure à la valeur affichée de la taille de l'échantillon. En conséquence, la taille de l'échantillon est alors diminuée automatiquement de façon à rester toujours inférieure d'une unité à la population de l'urne.

 

La distribution

    La distribution théorique du nombre de boules blanches dans l'échantillon est matérialisée par des cases bleues dans le cadre inférieur.

    Le nombre de cases est le plus petit de :

  • La taille de l'échantillon,
  • et le nombre de boules blanches dans l'urne,

car il ne peut évidemment pas y avoir plus de boules blanches dans l'échantillon qu'il n'y en a au départ dans l'urne.

En conséquence, lorsqu'on augmente la taille de l'échantillon (à autres paramètres constants), le nombre de cases augmente, puis cesse d'augmenter lorsqu'il devient égal au nombre initial de boules blanches (mais la forme de la distribution, elle, continue à évoluer).

Notez également que si la taille n de l'échantillon est supérieure au nombre de boules rouges R (n > R), alors l'échantillon contient alors certainement au moins n - R boules blanches. Les (n - R) premières cases de la distribution sont alors vides (petits rectangles "creux").


L'échelle verticale est ajustée automatiquement de façon à ce que la hauteur du mode reste toujours la même. La valeur vraie du mode peut être lue sur le côté gauche du cadre.
La moyenne de la distribution est matérialisée par une petite ligne verticale bleue dans la bas du cadre.

  

Convergence vers la distribution binomiale

La distribution hypergéométrique est, comme la distribution binomiale, une distribution discrète, unimodale et à domaine fini. En fait, nous montrerons que sous certaines conditions, la distribution hypergéométrique tend vers une distribution binomiale quand le nombre de boules dans l'urne tend vers l'infini.

Les cases grises matérialisent la distribution binomiale limite pour les valeurs choisies des paramètres. L'écart avec la distribution hypergéométrique est assez important, ce qui n'est pas surprenant car cette convergence n'est qu'un résultat asymptotique qui ne dit rien sur la qualité de l'ajustement pour des petites valeurs des nombres de boules. En particulier :

    * La distribution binomiale prédit des probabilités non nulles jusqu'à la valeur b = 0 même quand la taille de l'échantillon est supérieure au nombre de boules rouges dans l'urne (voir paragraphe précédent).

    * La distribution binomiale prédit des probabilités non nulles pour des valeurs de b allant jusqu'à n, la taille de l'échantillon, même quand cette taille est supérieure au nombre de boules blanches dans l'urne.


Pour supprimer la comparaison avec la distribution binomiale, cliquez sur le bouton "Binomial".

 

L'animation

    Cliquez sur "Go", et observez la construction progressive de l'histogramme de la distribution hypergéométrique pour les valeurs choisies des paramètres. 

 

 

Propriétés de la distribution hypergéométrique

Contraintes sur b

Nous commencerons par montrer que le nombre b de boule blanches dans l'échantillon est soumis à la contrainte suivante

 

max(0, n - R) ≤  b ≤  min(B, n)

 

que l'on retrouve dans l'animation.

Distribution de probabilité

Notons P{X = b} la probabilité pour que l'échantillon contienne exactement b boules blanches (avec b soumis aux contraintes ci-dessus).

    * Une première méthode nous permettra de montrer que

 

 

 

r = n - b est le nombre de boules rouges dans l'échantillon.

 

    * Une deuxième méthode nous permettra de montrer que

 

 

 

Fort heureusement, nous parviendrons à montrer que ces deux expressions, d'allures très différentes, sont en fait identiques.

Moyenne

Nous montrerons que la moyenne µ de la distribution hypergéométrique est :

 

 

 

Si l'on note p la proportion initiale de boules blanches dans l'urne, cette expression s'écrit :

µ = np

Autrement dit, la moyenne du nombre de boules blanches dans l'échantillon est simplement égal au nombre de boules dans l'échantillon multiplié par la probabilité pour que la première boule tirée de l'urne soit blanche.

Ce résultat serait évident si le tirage des boules se faisait avec remise : à chaque tirage, la probabilité de tirer une boule blanche serait égale à B/N, et b aurait alors simplement la distribution binomiale B(N, B/N).

Mais dans le cas de la distribution hypergéométrique, le tirage se fait sans remise, et par conséquent la probabilité pour chacun des n tirages de produire une boule blanche dépend de la composition de l'échantillon partiel déjà tiré, et donc de l'historique des tirages. Malgré cette différence fondamentale, les cas "avec remise" et "sans remise" conduisent au même résultat.

Variance

L'absence de remise après tirage rend le calcul de la variance σ² de la distribution hypergéométrique encore plus délicat. Nous montrerons cependant que :

 

 

 

Si l'on note p = B/N la proportion initiale de boules blanches dans l'urne, cette expression s'écrit :

σ² = np(1 - p)(1 - (n - 1)/(N - 1))

 

Remarquez que, pour une valeur de p donnée, σ² converge vers np(1 - p), la variance de la distribution binomiale de paramètres (n, p), quand le nombre initial de boules N tend vers l'infini. Ce résultat s'explique naturellement par la convergence de la distribution hypergéométrique vers la distribution binomiale que nous décrivons maintenant.

Convergence de la distribution hypergéométrique vers une distribution binomiale

Il existe manifestement un lien entre "distribution binomiale" et "distribution hypergéométrique" : la distribution hypergéométrique peut s'interpréter comme une variante de la distribution binomiale avec tirage sans remise depuis une population finie.

Ce lien est mis en évidence par les comportements asymptotiques de la distribution hypergéométrique, c'est à dire lorsque le nombre total de boules dans l'urne tend vers l'infini.

Taille d'échantillon fixe, proportion de boules blanches tend vers une limite

Supposons que le nombre N de boules dans l'urne tende vers l'infini d'une façon telle que la proportion B/N de boules blanches tende vers une limite p, la taille n de l'échantillon étant maintenue constante.

Nous montrerons qu'alors la distribution hypergéométrique HG(N, B, n) tend vers la distribution binomiale B(n, p). Ce résultat est intuitif puisque lorsque N augmente dans les conditions décrites ci-dessus, l'influence de l'absence de remise de chaque boule tirée devient progressivement négligeable.

Nombre de boules blanches fixe

Nous établirons également le résultat suivant, moins intuitif.

    * Le nombre total de boules N tend vers l'infini, mais on maintient constant le nombre B de boules blanches. Le nombre de boules rouges tend donc lui aussi vers l'infini, et la proportion de boules blanches dans l'urne tend vers 0.

    * Pour compenser cette raréfaction relative des boules blanches, on fait croître la taille n de l'échantillon de façon à ce que la proportion n/N de boules tirées de l'urne tende vers une limite p. Bien entendu, la proportion de boules blanches dans l'échantillon tend alors vers 0.

Mais ce qui nous intéresse est la distribution du nombre de ces boules blanches (et non de leur proportion), qui, sous ces conditions, tend vers la distribution binomiale B(B, p).

Convergence de la distribution hypergéométrique vers une distribution normale

Nous venons de mentionner que si B/N tend vers une limite p quand N tend vers l'infini (la taille de l'échantillon étant maintenue constante), la distribution hypergéométrique HG(N, B, n) converge vers la distribution binomiale B(n, p).

Par ailleurs, nous savons que que la distribution binomiale B(n, p) tend vers une distribution normale quand n tend vers l'infini. Il semble donc presque évident que la distribution hypergéométrique doit tendre vers une distribution normale quand N et n tendent simultanément vers l'infini.

Malheureusement, les choses ne sont pas aussi simples. Considérons par exemple le cas extrême suivant : en faisant tendre N tend vers l'infini, nous maintenons en permanence n = N. Alors, quel que soit N, l'échantillon contient toujours toutes les boules blanches, et la "distribution" de b est toujours
b = B, une distribution qu'on ne peut soupçonner de tendre vers une distribution normale.

Notre intuition nous dit donc :

    * Qu'il est indispensable de laisser n augmenter avec N pour que la distribution binomiale B(n, p) puisse tendre vers une distribution normale.

    * Mais que cette augmentation ne doit pas être trop rapide sous peine d'appauvrir la distribution du nombre b de boules blanches dans l'échantillon.

-----

Nous identifierons une condition sur la croissance de n avec N qui garantit la convergence de la distribution hypergéométrique vers une distribution normale.

 

 __________________________________________________________________

 

 

Tutoriel 1

 

Dans ce Tutoriel, nous établissons les propriétés élémentaires de la distribution hypergéométrique :

    * Distribution de masse (par deux méthodes différentes),

    * Moyenne et variance.

-----

Pour modestes qu'ils soient, ces résultats nous demanderons suffisamment d'efforts pour justifier un Tutoriel complet.

 

 

 

DISTRIBUTION HYPERGEOMETRIQUE

Contraintes sur la composition de l'échantillon

Distribution de masse de la distribution hypergéométrique

Première méthode

Deuxième méthode

Equivalence des deux résultats

Moyenne de la distribution hypergéométrique

Effectifs comme somme de variables de Bernoulli

Calcul de la moyenne

Variance de la distribution hypergéométrique

Variance des variables de Bernoulli auxiliaires

Covariances des variables de Bernoulli auxiliaires

Variance de la distribution hypergéométrique

TUTORIEL

____________________________________________________________

 

 

 

Tutoriel 2

 

 Nous montrons maintenant que dans les deux circonstances décrites ci-dessus, la distribution hypergéométrique tend vers une distribution binomiale.

 

 

CONVERGENCE DE LA DISTRIBUTION HYPERGEOMETRIQUE

VERS UNE DISTRIBUTION BINOMIALE

Première convergence vers une distribution binomiale

Développement de la fonction de masse

Trois équivalences asymptotiques

Limite de la distribution hypergéométrique

Deuxième convergence vers une distribution binomiale

Solution longue

Solution courte

TUTORIEL

_______________________________________________________

 

 

 

Tutoriel 3

 

Comme mentionné ci-dessus, la question de la convergence de la distribution hypergéométrique vers une distribution normale n'est pas aussi simple qu'il paraît de prime abord. Un examen rapide de la situation nous a convaincus que pour que cette convergence ait une chance de se produire, il ne fallait pas que la taille de l'échantillon croisse trop vite.

Dans ce Tutoriel :

    1) En n'utilisant que des techniques élémentaires, nous montrons dans un premier temps que la distribution hypergéométrique tend vers une distribution normale si n2/N tend vers 0 quand N tend vers l'infini avec B/N tendant vers une limite p.

    2) Encouragés par ce succès, nous apportons alors des améliorations à la méthode utilisée pour établir cette condition, ce qui nous permettra de découvrir qu'elle est trop restrictive. Nous montrerons en effet qu'il suffit que n3/N2 tende vers 0 (avec la même condition que ci-dessus sur B/N) pour que la distribution hypergéométrique tende vers une distribution normale quand N tend vers l'infini.

    3) Les deux conditions ci-dessus imposent à n/N de tendre vers 0 quand N tend vers l'infini, bien que ceci n'ait pas été imposé a priori, mais soit une simple conséquence des démonstrations. Mais en fait, rien n'indique qu'il soit indispensable que n/N tende vers 0 pour que la convergence recherchée se produise, les deux conditions ci-dessus n'étant que des conditions suffisantes de convergence.

Nous payons alors d'audace, et examinons les conséquences d'une convergence imposée de n/N vers une limite t non nulle. En ayant recours à des techniques plus sophistiquées que les précdentes, nous pourrons alors montrer que cette condition, bien que faible, suffit à garantir la convergence de la distribution hypergéométrique vers une distribution normale (toujours avec B/N tendant vers une limite p). Si t = 0, nous retouverons les résultats précédents comme cas particuliers.

Certaines parties de la démonstration comportent des calculs simples mais longs et fastidieux, qui sont omis.

-----

D'un point de vue logique, seule la troisième condition devrait être conservée puisqu'elle est la plus faible des trois : si une des deux premières conditions est satisfaite, alors la troisième l'est également (avec t = 0). Ce Tutoriel peut donc être considéré comme une illustration des bénéfices retirés de l'utilisation de méthodes de plus en plus puissantes en vue d'améliorer des solutions partielles d'un problème. Notez cependant que les trois conditions ne sont que suffisantes : à notre connaissance, il n'a pas été identifié à ce jour de condition "nécessaire et suffisante", ni même de condition simplement "nécessaire" à la convergence de la distribution hypergéométrique vers une distribution normale.

 

  

 

 

CONVERGENCE DE LA DISTRIBUTION HYPERGEOMETRIQUE

VERS UNE DISTRIBUTION NORMALE

Le reste

Le problème

Développement du reste

Une condition suffisante pour que le reste tende vers 1

Un majorant du reste

Un minorant du reste

La limite normale

Une condition moins contraignante

Une condition encore moins contraignante

TUTORIEL

 ________________________________________________________

 

 

 

Tutoriel 4

 

Nous présentons enfin une situation où la distribution hypergéométrique apparaît de façon un peu inattendue.

    * Soient X et Y deux variables aléatoires binomiales indépendantes, de même paramètre p, mais de tailles différentes m et n

    * Par ailleurs, soit k un entier quelconque.

 

Alors, la distribution de X, conditionnellement à la contrainte X + Y = k est une distribution hypergéométrique. Par ailleurs, cette distribution ne dépend pas de la valeur de p.

Cette importante propriété de la distribution binomiale est illustrée par une animation interactive très instructive. Elle est à la base du test de Fisher-Irwin, dont l'objectif est de tester l'hypothèse H0  selon laquelle deux populations de Bernoulli ont la même valeur du paramètre p.

 

 

 

DISTRIBUTION DE DEUX VARIABLES BINOMIALES INDEPENDANTES

CONDITIONNELLEMENT A LEUR SOMME

Distribution de deux variables binomiales indépendantes conditionnellement à leur somme

     Animation interactive

TUTORIEL

 

_______________________________________________________

 

Voir aussi:

Tirage sans remise

Distribution binomiale

Le test de Fisher-Irwin

Téléchargez ce Glossaire