Hypergéometrique (Distribution, ou loi)
Une urne contient N boules, dont :
avec B + R = N.
Un échantillon de n boules est tiré sans remise de l'urne. Autrement dit, n boules (l'échantillon) sont sélectionnées au hasard, puis retirées de l'urne.
On note b le nombre de boules blanches présentes dans l'échantillon (qui contient donc r = n - b boules rouges). Ce nombre est la réalisation d'une variable aléatoire X dont distribution est connue sous le nom de distribution hypergéométrique.
La distribution hypergéométrique dépend des trois paramètres N, B et n, et sera notée HG(N, B, n).
Cette animation illustre la distribution hypergéométrique.
|
L'urne Positionnement des boules Dans les problèmes probabilistes impliquant la célèbre "urne", il est le plus souvent admis implicitement que les boules sont positionnées aléatoirement dans l'urne. Cette hypothèse n'est pas nécessaire si le tirage est effectivement aléatoire (ceci peut être démontré). Pour la clarté de l'animation, les "boules"
(rectangulaires) blanches sont toutes dans la partie gauche de l'urne, et les
boules rouges sont toutes dans la partie droite de l'urne. Contrôle du nombre de boules * Population totale de l'urne La population totale (B + R) est lue dans l'affichage "N". Ce nombre n'est pas directement ajustable. Il l'est, indirectement, en changeant les valeurs respectives des nombres de boules blanches et rouges. La population totale est supérieure à 2 et inférieure à 30. * Nombre de boules blanches Le nombre de boules blanches est réglé par les boutons "W". Le plus petit nombre de boules blanches est 1, le plus grand est tel que la population totale de l'urne ne dépasse pas 30. * Nombre de boules rouges Comme pour les boules blanches, mais avec les boutons "R".
L'échantillon L'échantillon est matérialisé par des flèches (blanches ou rouges) pointant vers les boules qui ont été sélectionnées. La taille de l'échantillon est réglé par les boutons "Sample size". Sa valeur est au moins de 1, et au plus N - 1. Notez qu'en réduisant exagérément le nombre de boules blanches ou rouges, la population totale de l'urne pourrait devenir inférieure à la valeur affichée de la taille de l'échantillon. En conséquence, la taille de l'échantillon est alors diminuée automatiquement de façon à rester toujours inférieure d'une unité à la population de l'urne.
La distribution La distribution théorique du nombre de boules blanches dans l'échantillon est matérialisée par des cases bleues dans le cadre inférieur. Le nombre de cases est le plus petit de :
car il ne peut évidemment pas y avoir plus de boules blanches dans l'échantillon qu'il n'y en a au départ dans l'urne. En conséquence, lorsqu'on augmente la taille de l'échantillon (à autres paramètres constants), le nombre de cases augmente, puis cesse d'augmenter lorsqu'il devient égal au nombre initial de boules blanches (mais la forme de la distribution, elle, continue à évoluer). Notez également que si la taille n de l'échantillon est supérieure au nombre de boules rouges R (n > R), alors l'échantillon contient alors certainement au moins n - R boules blanches. Les (n - R) premières cases de la distribution sont alors vides (petits rectangles "creux").
Convergence vers la distribution binomiale La distribution hypergéométrique est, comme la distribution binomiale, une distribution discrète, unimodale et à domaine fini. En fait, nous montrerons que sous certaines conditions, la distribution hypergéométrique tend vers une distribution binomiale quand le nombre de boules dans l'urne tend vers l'infini. Les cases grises matérialisent la distribution binomiale limite pour les valeurs choisies des paramètres. L'écart avec la distribution hypergéométrique est assez important, ce qui n'est pas surprenant car cette convergence n'est qu'un résultat asymptotique qui ne dit rien sur la qualité de l'ajustement pour des petites valeurs des nombres de boules. En particulier : * La distribution binomiale prédit des probabilités non nulles jusqu'à la valeur b = 0 même quand la taille de l'échantillon est supérieure au nombre de boules rouges dans l'urne (voir paragraphe précédent). * La distribution binomiale prédit des probabilités non nulles pour des valeurs de b allant jusqu'à n, la taille de l'échantillon, même quand cette taille est supérieure au nombre de boules blanches dans l'urne.
L'animation Cliquez sur "Go", et observez la construction progressive de l'histogramme de la distribution hypergéométrique pour les valeurs choisies des paramètres.
|
Contraintes sur b
Nous commencerons par montrer que le nombre b de boule blanches dans l'échantillon est soumis à la contrainte suivante
|
max(0, n - R) ≤ b ≤ min(B, n) |
que l'on retrouve dans l'animation.
Distribution de probabilité
Notons P{X = b} la probabilité pour que l'échantillon contienne exactement b boules blanches (avec b soumis aux contraintes ci-dessus).
* Une première méthode nous permettra de montrer que
|
|
où r = n - b est le nombre de boules rouges dans l'échantillon.
* Une deuxième méthode nous permettra de montrer que
|
|
Fort heureusement, nous parviendrons à montrer que ces deux expressions, d'allures très différentes, sont en fait identiques.
Nous montrerons que la moyenne µ de la distribution hypergéométrique est :
|
|
Si l'on note p la proportion initiale de boules blanches dans l'urne, cette expression s'écrit :
µ = np
Autrement dit, la moyenne du nombre de boules blanches dans l'échantillon est simplement égal au nombre de boules dans l'échantillon multiplié par la probabilité pour que la première boule tirée de l'urne soit blanche.
Ce résultat serait évident si le tirage des boules se faisait avec remise : à chaque tirage, la probabilité de tirer une boule blanche serait égale à B/N, et b aurait alors simplement la distribution binomiale B(N, B/N).
Mais dans le cas de la distribution hypergéométrique, le tirage se fait sans remise, et par conséquent la probabilité pour chacun des n tirages de produire une boule blanche dépend de la composition de l'échantillon partiel déjà tiré, et donc de l'historique des tirages. Malgré cette différence fondamentale, les cas "avec remise" et "sans remise" conduisent au même résultat.
L'absence de remise après tirage rend le calcul de la variance σ² de la distribution hypergéométrique encore plus délicat. Nous montrerons cependant que :
|
|
Si l'on note p = B/N la proportion initiale de boules blanches dans l'urne, cette expression s'écrit :
σ² = np(1 - p)(1 - (n - 1)/(N - 1))
Remarquez que, pour une valeur de p donnée, σ² converge vers np(1 - p), la variance de la distribution binomiale de paramètres (n, p), quand le nombre initial de boules N tend vers l'infini. Ce résultat s'explique naturellement par la convergence de la distribution hypergéométrique vers la distribution binomiale que nous décrivons maintenant.
Il existe manifestement un lien entre "distribution binomiale" et "distribution hypergéométrique" : la distribution hypergéométrique peut s'interpréter comme une variante de la distribution binomiale avec tirage sans remise depuis une population finie.
Ce lien est mis en évidence par les comportements asymptotiques de la distribution hypergéométrique, c'est à dire lorsque le nombre total de boules dans l'urne tend vers l'infini.
Supposons que le nombre N de boules dans l'urne tende vers l'infini d'une façon telle que la proportion B/N de boules blanches tende vers une limite p, la taille n de l'échantillon étant maintenue constante.
Nous montrerons qu'alors la distribution hypergéométrique HG(N, B, n) tend vers la distribution binomiale B(n, p). Ce résultat est intuitif puisque lorsque N augmente dans les conditions décrites ci-dessus, l'influence de l'absence de remise de chaque boule tirée devient progressivement négligeable.
Nous établirons également le résultat suivant, moins intuitif.
* Le nombre total de boules N tend vers l'infini, mais on maintient constant le nombre B de boules blanches. Le nombre de boules rouges tend donc lui aussi vers l'infini, et la proportion de boules blanches dans l'urne tend vers 0.
* Pour compenser cette raréfaction relative des boules blanches, on fait croître la taille n de l'échantillon de façon à ce que la proportion n/N de boules tirées de l'urne tende vers une limite p. Bien entendu, la proportion de boules blanches dans l'échantillon tend alors vers 0.
Mais ce qui nous intéresse est la distribution du nombre de ces boules blanches (et non de leur proportion), qui, sous ces conditions, tend vers la distribution binomiale B(B, p).
Nous venons de mentionner que si B/N tend vers une limite p quand N tend vers l'infini (la taille de l'échantillon étant maintenue constante), la distribution hypergéométrique HG(N, B, n) converge vers la distribution binomiale B(n, p).
Par ailleurs, nous savons que que la distribution binomiale B(n, p) tend vers une distribution normale quand n tend vers l'infini. Il semble donc presque évident que la distribution hypergéométrique doit tendre vers une distribution normale quand N et n tendent simultanément vers l'infini.
Malheureusement, les choses ne sont pas aussi simples.
Considérons par exemple le cas extrême suivant : en faisant tendre N
tend vers l'infini, nous maintenons en permanence n = N. Alors, quel
que soit N, l'échantillon contient toujours toutes les boules
blanches, et la "distribution" de b est toujours
b = B, une distribution qu'on ne peut soupçonner
de tendre vers une distribution normale.
Notre intuition nous dit donc :
* Qu'il est indispensable de laisser n augmenter avec N pour que la distribution binomiale B(n, p) puisse tendre vers une distribution normale.
* Mais que cette augmentation ne doit pas être trop rapide sous peine d'appauvrir la distribution du nombre b de boules blanches dans l'échantillon.
-----
Nous identifierons une condition sur la croissance de n avec N qui garantit la convergence de la distribution hypergéométrique vers une distribution normale.
Les tests sur les variables discrètes sont souvent des tests du Chi-2, qui sont des tests approximatifs. Cependant, il existe quelques tests exacts portant sur des variables aléatoires dichotomiques (variables de Bernoulli), comme par exemple :
* Le test de Fisher-Irwin (identité des distributions de deux variables dichotomiques).
* Le "test exact de Fisher" (indépendance de deux variables dichotomiques).
Pour ces deux tests, la statistique de test suit une distribution hypergéométrique.
__________________________________________________________________
|
Tutoriel 1 |
Dans ce Tutoriel, nous établissons les propriétés élémentaires de la distribution hypergéométrique :
* Distribution de masse (par deux méthodes différentes),
* Moyenne et variance.
-----
Pour modestes qu'ils soient, ces résultats nous demanderons suffisamment d'efforts pour justifier un Tutoriel complet.
DISTRIBUTION HYPERGEOMETRIQUE
|
Contraintes sur la composition de l'échantillon Distribution de masse de la distribution hypergéométrique Première méthode Deuxième méthode Equivalence des deux résultats Moyenne de la distribution hypergéométrique Effectifs comme somme de variables de Bernoulli Calcul de la moyenne Variance de la distribution hypergéométrique Variance des variables de Bernoulli auxiliaires Covariances des variables de Bernoulli auxiliaires Variance de la distribution hypergéométrique |
||
|
TUTORIEL |
||
____________________________________________________________
|
Tutoriel 2 |
Nous montrons maintenant que dans les deux circonstances décrites ci-dessus, la distribution hypergéométrique tend vers une distribution binomiale.
CONVERGENCE DE LA DISTRIBUTION HYPERGEOMETRIQUE
VERS UNE DISTRIBUTION BINOMIALE
|
Première convergence vers une distribution binomiale Développement de la fonction de masse Trois équivalences asymptotiques Limite de la distribution hypergéométrique Deuxième convergence vers une distribution binomiale Solution longue Solution courte |
||
|
TUTORIEL |
||
_______________________________________________________
|
Tutoriel 3 |
Comme mentionné ci-dessus, la question de la convergence de la distribution hypergéométrique vers une distribution normale n'est pas aussi simple qu'il paraît de prime abord. Un examen rapide de la situation nous a convaincus que pour que cette convergence ait une chance de se produire, il ne fallait pas que la taille de l'échantillon croisse trop vite.
Dans ce Tutoriel :
1) En n'utilisant que des techniques élémentaires, nous montrons dans un premier temps que la distribution hypergéométrique tend vers une distribution normale si n2/N tend vers 0 quand N tend vers l'infini avec B/N tendant vers une limite p.
2) Encouragés par ce succès, nous apportons alors des améliorations à la méthode utilisée pour établir cette condition, ce qui nous permettra de découvrir qu'elle est trop restrictive. Nous montrerons en effet qu'il suffit que n3/N2 tende vers 0 (avec la même condition que ci-dessus sur B/N) pour que la distribution hypergéométrique tende vers une distribution normale quand N tend vers l'infini.
3) Les deux conditions ci-dessus imposent à n/N de tendre vers 0 quand N tend vers l'infini, bien que ceci n'ait pas été imposé a priori, mais soit une simple conséquence des démonstrations. Mais en fait, rien n'indique qu'il soit indispensable que n/N tende vers 0 pour que la convergence recherchée se produise, les deux conditions ci-dessus n'étant que des conditions suffisantes de convergence.
Nous payons alors d'audace, et examinons les conséquences d'une convergence imposée de n/N vers une limite t non nulle. En ayant recours à des techniques plus sophistiquées que les précdentes, nous pourrons alors montrer que cette condition, bien que faible, suffit à garantir la convergence de la distribution hypergéométrique vers une distribution normale (toujours avec B/N tendant vers une limite p). Si t = 0, nous retouverons les résultats précédents comme cas particuliers.
Certaines parties de la démonstration comportent des calculs simples mais longs et fastidieux, qui sont omis.
-----
D'un point de vue logique, seule la troisième condition devrait être conservée puisqu'elle est la plus faible des trois : si une des deux premières conditions est satisfaite, alors la troisième l'est également (avec t = 0). Ce Tutoriel peut donc être considéré comme une illustration des bénéfices retirés de l'utilisation de méthodes de plus en plus puissantes en vue d'améliorer des solutions partielles d'un problème. Notez cependant que les trois conditions ne sont que suffisantes : à notre connaissance, il n'a pas été identifié à ce jour de condition "nécessaire et suffisante", ni même de condition simplement "nécessaire" à la convergence de la distribution hypergéométrique vers une distribution normale.
CONVERGENCE DE LA DISTRIBUTION HYPERGEOMETRIQUE
VERS UNE DISTRIBUTION NORMALE
|
Le reste Le problème Développement du reste Une condition suffisante pour que le reste tende vers 1 Un majorant du reste Un minorant du reste La limite normale Une condition moins contraignante Une condition encore moins contraignante |
||
|
TUTORIEL |
||
________________________________________________________
|
Tutoriel 4 |
Nous présentons enfin une situation où la distribution hypergéométrique apparaît de façon un peu inattendue.
* Soient X et Y deux variables aléatoires binomiales indépendantes, de même paramètre p, mais de tailles différentes m et n
* Par ailleurs, soit k un entier quelconque.
Alors, la distribution de X, conditionnellement à la contrainte X + Y = k est une distribution hypergéométrique. Par ailleurs, cette distribution ne dépend pas de la valeur de p.
Cette importante propriété de la distribution binomiale est illustrée par une animation interactive très instructive. Elle est à la base du test de Fisher-Irwin, dont l'objectif est de tester l'hypothèse H0 selon laquelle deux populations de Bernoulli ont la même valeur du paramètre p.
DISTRIBUTION DE DEUX VARIABLES BINOMIALES INDEPENDANTES
CONDITIONNELLEMENT A LEUR SOMME
|
Distribution de deux variables binomiales indépendantes conditionnellement à leur somme
|
||
|
TUTORIEL |
||
_______________________________________________________
Voir aussi: