|
Animation interactive |
Central Limite (Théorème)
Un des piliers de la Théorie des Variables Aléatoires.
Soit X une v.a. quelconque, continue ou discrète, sous la seule réserve que sa distribution de probabilité ait une espérance µ et une variance s². En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la moyenne empirique de cette distribution, considérée comme variable aléatoire, suit une loi presque normale. De plus, il ajoute que cette loi peut devenir aussi proche d'une loi normale que l'on veut: il suffit pour cela de considérer des échantillons de plus en plus grands.
Plus précisément, la moyenne empirique est une variable aléatoire, dont la distribution est en général inconnue (avec quelques exceptions notables comme les distributions normale, Chi-2, binomiale ou Poisson), même lorsque la distribution mère est parfaitement connue. Le Théorème Central Limite affirme cependant que lorsque la taille de l'échantillon tend vers l'infini, la fonction de répartition de la moyenne empirique converge vers la fonction de répartition d'une distribution normale.
La distribution de la moyenne empirique est inconnue, mais :
* La moyenne de cette distribution est connue : c'est µ, la moyenne de la distribution mère.
* La variance de cette distribution est connue : c'est s²/n, où s² est la variance de la distribution mère, et n la taille de l'échantillon.
On peut donc affiner l'affirmation précédente en disant que la fonction de répartition de la moyenne empirique standardisée converge vers la fonction de répartition de la distribution normale standard. On dit que la moyenne empirique standardisée converge "en loi" vers la distribution normale standard.
Cette convergence se traduit par le fait que, pour
tout nombre x, la probabilité pour que X
x tend vers F(x) quand n,
la taille de l'échantillon, tend vers l'infini, où F(.)
est la fonction de répartition normale standard.
Le Théorème Central Limite se traduit donc par l'expression :
|
|
quand n tend vers l'infini.
Nous avons d'abord dit que le Théorème Central Limite affirme que la distribution de probabilité de la moyenne empirique (standardisée) tend vers une distribution normale (standard). Mais cette formulation est trop restrictive, car le TCL s'applique aussi bien à des variables discrètes (binomiale, Poisson etc...), qui n'ont donc pas de densité de probabilité. Ceci est parce qu'il porte non pas sur des densités de probabilité, mais sur des fonctions de répartition.
Prenons par exemple une distribution binomiale. Elle est constituée de probabilités attachées aux abscisses entières. La distribution de la moyenne empirique est également constituée de "pics". La distance entre ces pics tend vers 0 quand n tend vers l'infini, mais une telle suite de fonctions ne tend vers aucune limite, au sens de l'Analyse, quand n tend vers l'infini (voir animation interactive).
Par contre, la fonction de répartition de la moyenne empirique standardisée, bien que discontinue (fonction en escalier), tend bien vers la fonction de répartition de la distribution normale standard.
-----
Si la v.a. admet une densité de probabilité, alors il est vrai que la densité de probabilité de la moyenne empirique standardisée converge vers la densité normale standard, mais ceci n'est pas du tout évident, et requiert une démonstration (difficile, et que nous ne donnerons pas).
Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Il impose en particulier à la distribution considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.
L'exemple le plus évident d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.
Deux autres distributions classiques sans moyenne sont les
distributions de Fisher
Fn, 1et Fn, 2.
Le TLC existe sous de nombreuses versions selon les hypothèses formulées sur la distribution de probabilité. Par exemple :
* Une version plus faible que celle décrite ci-dessus suppose que la distribution possède une fonction génératrice des moments. C'est cette version que nous démontrons dans le Tutoriel ci-dessous.
* A l'inverse, une version plus forte ne fait pas référence à la distribution de la moyenne d'une distribution, mais à la moyenne d'une collection de v.a. {Xn} indépendantes mais non identiquement distribuées, de même moyenne µ et de même variance s².
Il existe des versions encore plus fortes, c'est à dire faisant des hypothèses encore moins restrictives sur les variables aléatoires dont on cherche la distribution limite de la moyenne.
Au-delà de sa grande importance théorique, le Théorème Central Limite a une conséquence pratique importante. Il arrive fréquemment qu'une quantité puisse être considérée comme résultant de l'addition d'un grand nombre de petites contributions indépendantes (et de distributions identiques). Le TLC explique alors pourquoi il est naturel que cette quantité suive une distribution normale, sans même avoir à se préoccuper de la nature de la distribution de probabilité de ces contributions élémentaires.
L'animation suivante est une illustration du TCL.
Cadre supérieur
a) Dans le cadre supérieur est affiché un rectangle vert qui matérialise une distribution uniforme. Un échantillon issu de cette distribution uniforme est également affiché, et la position de sa moyenne est matérialisée par une ligne verticale rouge.
Vous pouvez changer la taille de l'échantillon avec les boutons "Nb. Points". Un nouvel échantillon est tiré pour chaque nouvelle taille d'échantillon.
b) Vous pouvez maintenant "sculpter" une autre fonction de densité de probabilité (à support borné) en cliquant à plusieurs reprise à l'intérieur du cadre (même dans la zone verte).
La gaussienne rouge a même moyenne et même variance que la distribution que vous sculptez.
Cadre inférieur
La gaussienne rouge est la distribution normale standard N(0, 1), qui va servir de référence. Elle est donc fixe quelle que soit la densité dans le cadre supérieur ou la taille d'échantillon. Les échelles horizontale et verticale sont arbitraires, et sans rapport avec les échelles du cadre supérieur.
D'après le Théorème Central Limite, la distribution de la "moyenne empirique standardisée":

de la densité du cadre supérieur doit ressembler de plus en plus à cette gaussienne pour des tailles n croissantes d'échantillon (µ est la moyenne de la densité).
C'est ce fait qu'illustre cette animation.
Animation
Après avoir cliqué sur "Go", vous verrez
s'afficher progressivement dans le cadre
inférieur gris l'histogramme de la distribution de la moyenne empirique standardisée de
votre distribution (pour la valeur de n
choisie).
Dans certaines configurations, il
est possible que l'histogramme soit tronqué parce que trop haut pour le
cadre. Réduisez alors l'échelle verticale avec les boutons "Vert. scale"
sans interrompre l'animation jusqu'à ce que l'histogramme tienne entièrement dans
le cadre.
_________________________
Parmi les nombreuses expériences possibles :
* Conservez la distribution uniforme initiale, et étudiez l'évolution de la distribution de la moyenne empirique pour des valeurs croissantes de n. En particulier
* Construisez une distribution
de votre choix, puis réglez le nombre de points à 1. La distribution de la "moyenne"
empirique sera une simple copie de la distribution originale.
* Construisez une distribution
qui soit "aussi différente que possible" de la distribution normale.
Par
exemple, vous pouvez construire une distribution concave en forme de bol. Sa moyenne est
alors en un endroit où la d.d.p. est proche de 0. Aucun point
ne sera donc jamais tiré en cet endroit. Et pourtant, pour de grandes valeurs
de n, la distribution de la moyenne empirique atteindra en cet endroit
sa valeur maximale !
* Conservez cette même distribution "concave", et ajustez la taille de l'échantilllon à 2 (pour changer la valeur de n en conservant la distribution courante, cliquez d'abord sur "Pause", puis changez la taille de l'échantillon avant de cliquer à nouveau sur "Go").
La distribution de la moyenne est maintenant fortement modulée avec 3 "bosses" et 2 "creux". Pouvez-vous interpréter cette structure :
* Conservez ensuite cette même distribution et répétez l'expérience avec des tailles d'échantillon de plus en plus grandes. Observez :
_____________________________________________________________
|
Tutoriel |
Dans ce Tutoriel, nous démontrons le Théorème Central Limite. Plus précisément, nous démontrons la version du TCL qui fait l'hypothèse selon laquelle la distribution considérée admet une fonction génératrice des moments. Cette hypothèse n'est pas absolument indispensable, mais elle rend la démonstration beaucoup plus simple. Elle est également raisonnable car la plupart des distributions ordinaires ont une f.g.m..
-----
Nous commençons par établir un résultat classique d'Analyse portant sur la résolution de formes indéterminées du type 0/0.
Puis nous abordons la démonstration à proprement parler. Bien que cette démonstration ne soit pas extrêmement compliquée, il est utile d'en donner d'abord une esquisse qui permettra au lecteur d'en suivre le développement plus aisément.
La dernière étape de la démonstration fait appel à la propriété de convergence de la fonction génératrice des moments, que nous avons mentionnée mais dont démonstration dépasse largement le cadre de ce Glossaire.
LE THEOREME CENTRAL LIMITE
|
Résultat préliminaire Le Théorème Central Limite Plan de la démonstration Démonstration du Théorème Central Limite La moyenne empirique standardisée F.g.m. de la moyenne empirique standardisée Développement de Taylor de la f.g.m. Limite pour les grands échantillons Propriété de convergence de la f.g.m. Le Théorème Central Limite |
||
|
TUTORIEL |
||
________________________________________________________
Voir aussi: