|
Animation interactive |
Normale (Distribution)
Aussi appelée "Loi normale" ou "Distribution gaussienne", ou "Loi gaussienne".
De loin la distribution de probabilité la plus connue.
Une variable aléatoire X est dite avoir une distribution normale si sa densité de probabilité (ddp) est égale à :

pour une certaine paire de valeurs des paramètres µ et s.
Le coefficient devant l'exponentielle n'est là que pour
rendre l'intégrale de la fonction égale à 1.
* µ est clairement un "paramètre de position", ou de "tendance centrale".
* alors que s est un "paramètre d'échelle", ou "paramètre de dispersion".
Bien que le "vrai" paramètre soit s, les applications sont habituellement concernées par s², et en conséquence, la distribution normale de paramètres µ et s sera notée N(µ, s²).
Vous retrouverez la forme en cloche symétrique de la distribution normale en de nombreuses occasions sur ce site, ainsi que dans tout texte portant sur la Statistique. Nous en donnons ici un premier exemple avec :
* Une distribution normale (courbe supérieure verte), ainsi qu'un échantillon issu de cette distribution. La moyenne de cet échantillon est marquée d'un point rouge à partir duquel s'étend une ligne verticale rouge vers le bas.
* Une autre distribution normale (courbe rouge inférieure), qui est la distribution théorique de la moyenne des échantillons tirés de la normale verte (nous démontrons ce résultat dans le Tutoriel ci-dessous).
* Changez la valeur de l'écart-type de la courbe verte avec le curseur vertical situé dans l'angle supérieur droit de l'animation ("SD"), et observez les variations de largeur des deux gaussiennes.
* Changez la taille de l'échantillon ("Sample size"), et observez le rétrécissement de la gaussienne rouge quand la taille de l'échantillon augmente.
* Les autres contrôles s'expliquent d'eux-mêmes.
Nous avons tellement l'habitude de considérer :
* µ comme la moyenne de la distribution normale
* et s comme son écart-type,
qu'on en oublie parfois que ces résultats doivent être démontrés, ce que nous faisons ci-dessous.
-----
En anticipant quelque peu, on peut donc remarquer qu'une distribution normale est entièrement définie par les valeurs de ses deux premier moments.
Nous verrons à de multiples reprises que la distribution normale particulière N(0, 1) joue un rôle central en Statistique. Elle porte le nom de distribution normale standard.
La distribution normale fut introduite initialement comme forme limite de la distribution binomiale B(n, p) pour de grandes valeurs de n. L'authentique distribution binomiale est alors impossible à calculer exactement en raison de la présence de factorielles, qui conduisent rapidement à la manipulation de nombres gigantesques. Le besoin se fit alors sentir d'une formule approximative plus facile à manipuler. Après des calculs quelque peu laborieux, de Moivre fut le premier à obtenir la forme analytique ci-dessus. Plus précisément, il montra que si X est une v.a. B(n, p), alors la distribution de la variable Y définie par :

c'est à dire la version standardisée de X, converge vers N(0, 1) quand n tend vers l'infini.
La distribution de Poisson
est une autre approximation de la distribution binomiale pour les grandes
valeurs de n, qui est plus précise que la distribution normale lorsque
p (ou 1 - p) a une valeur très petite.
Mais il s'avéra plus tard que la distribution normale a une origine plus profonde. Ce que de Moivre observa avec la distribution binomiale est en fait un cas particulier d'une situation beaucoup plus générale.
Soit {Xi}une suite infinie de v.a. indépendantes. Nous pouvons construire une autre suite infinie de v.a. définie par :

Yn est donc définie comme la somme des n premières Xi.
On montre alors que, sous des conditions assez peu contraignantes sur les {Xi}, la distribution de :

converge vers la distribution N(0, 1) quand n tend vers l'infini.
Ce résultat fondamental est connu sous le nom de "Théorème Central Limite", ou "Théorème de la Limite Centrale".
Vous vous convaincrez aisément que le résultat obtenu par de Moivre est un cas particulier du Théorème Central Limite, les variables Xi étant des variables de Bernoulli indépendantes de même paramètre p.
-----
Le Théorème Central Limite "explique" pourquoi tant de distributions observées dans les applications ressemblent à des distributions normales. Il arrive fréquemment qu'une grandeur soit le résultat de l'addition d'un très grand nombre de petites causes aléatoires. Alors, quelles que soient les distributions probabilistes de ces causes, la grandeur observée aura une distribution normale.
La distribution normale apparaît donc comme une distribution universelle.
De la distribution normale découlent plusieurs distributions importantes :
La distribution de la variance empirique s² est telle que :
(n - 1)s²/s²
a une distribution qui ne dépend pas de
s² et est connue sous le nom de "distribution
du
à
(n - 1) degrés de liberté" dont les propriétés sont détaillées ici.
La connaissance de cette distribution permet d'élaborer des intervalles de confiance et des tests portant sur la variance de la distribution normale.
-----
En dehors de la variance empirique de la distribution
normale, plusieurs autres quantités suivent approximativement des
distributions
,
ce qui conduit à l'élaboration d'un certain nombre de tests connus globalement
sous le nom de "tests du Chi2".
La moyenne empirique
est distribuée comme N(µ, s²/n)
(voir Tutoriel ci-dessous),
et la moyenne empirique standardisée est donc distribuée comme N(0, 1).
De ce résultat découlent les intervalles de confiance et les tests
t les plus simples portant sur la
valeur de la moyenne d'une distribution normale de variance connue.
Mais le plus souvent, la variance s² est inconnue, ce qui rend impossible la standardisation de la moyenne de l'échantillon. On peut cependant estimer s² par la variance de l'échantillon, et construire ainsi une quantité T qui ne dépend pas de s², et dont on connait la distribution : c'est la distribution t de Student à (n - 1) degrés de liberté (où n est la taille de l'échantillon).
Il est alors possible d'élaborer des intervalles de confiance et des tests portant :
* Sur la valeur de la moyenne d'une distribution normale de variance inconnue,
* Sur la différence des moyennes de deux distributions normales de même variance inconnue.
-----
D'autres quantités suivent également des distributions t, en particulier lors de l'élaboration d'intervalles de confiance sur les valeurs des paramètres d'une Régression Linéaire Multiple.
Le rapport des variances de deux échantillons issus de deux distributions normales indépendantes et de même variance suit une distribution appelée distribution F (de Fisher).
Les propriétés de la distribution F sont détaillées ici.
-----
D'autres quantités suivent également la distribution F, qui a un rôle central :
* En Analyse de la Variance (ANOVA).
* En Régression Linéaire Simple ou Multiple dans les tests portant sur la validité des modèles ajustés.
Nous démontrons ici
que la moyenne empirique
et la variance empirique s² d'une distribution normale sont deux variables
aléatoires indépendantes. Ce résultat important est une propriété caractéristique
de la distribution normale : une distribution dont les moyenne et variance empiriques
sont indépendantes est obligatoirement normale.
Nous montrons ici
que la moyenne empirique
est
une statistique exhaustive pour la moyenne µ de la distribution
normale.
Nous montrons ici
que la distribution normale appartient à la famille exponentielle. Nous en déduirons
que
est un estimateur efficace
de la moyenne µ.
_____________________________________________________
|
Tutoriel 1 |
Dans ce premier Tutoriel, nous établissons les propriétés élémentaires de la distribution normale.
* Nous en calculons le moyenne et la variance à partir de leurs définitions. Le calcul de la moyenne est simple, celui de la variance un peu plus complexe. Nous découvrirons sans surprise que la moyenne est égale à µ et que la variance est égale à s².
* Puis nous calculons la fonction génératrice des moments de la distribution normale. Nous calculerons à nouveau la moyenne et la variance de la distribution à partir de cette fgm.
-----
Nous insistons sur l'importance de la distribution normale standard N(0, 1), qui est la pierre angulaire des intervalles de confiance et des tests t les plus simples.
PROPRIETES ELEMENTAIRES
DE LA DISTRIBUTION NORMALE
|
Moyenne et variance (Calcul direct) Moyenne Variance Fonction génératrice des moments Moments Moyenne Variance Distribution normale standard Définition Fonction de répartition Importance de la distribution normale standard Exemple 1 Exemple 2 |
||
|
TUTORIEL |
||
______________________________________________
|
Tutoriel 2 |
Nous procédons maintenant à l'estimation des paramètres de la distribution normale.
Nous utilisons d'abord la Méthode des moments, puis la méthode du Maximum de Vraisemblance (MV). Nous verrons que la solution par MV est unique (ce qui n'est pas toujours le cas). Nous verrons également que l'estimateur de la variance par la méthode des moments est meilleur que celui du MV, qui souffre d'un léger biais (cette situation est plus une exception qu'une règle).
Ces résultats sont illustrés par une animation interactive.
ESTIMATION DES PARAMETRES
DE LA DISTRIBUTION NORMALE
|
Estimation par la méthode des moments Estimation par la méthode du Maximum de Vraisemblance La log-vraisemblance Estimateur du MV de la moyenne Estimateur du MV de la variance Estimateur Biais de l'estimateur de la variance _______________________________
|
||
|
TUTORIAL |
||
________________________________________________________
|
Tutoriel 3 |
Nous établissons maintenant deux propriétés importantes
des variables aléatoires normalement distribuées :
* La transformée linéaire d'une v.a. normale est
normale, et nous calculons ses paramètres.
* La somme de v.a. normales
indépendantes est normale, et nous
calculons ses paramètres. La condition d'indépendance est importante, et
nous donnons ici
deux exemples de paires {X, Y} de variables normales mais non indépendantes,
et dont les sommes Z = X + Y ne sont pas normalement distribuées.
Nous déduirons de ces résultats la distribution de
la moyenne empirique de la distribution normale.
PROPRIETES ELEMENTAIRES
DE V.A. NORMALEMENT DISTRIBUEES
|
Transformation linéaire d'une variable normale Première solution : propriétés générales des transformations de variables Deuxième solution : fonction génératrice des moments Combinaison de v.a. normales indépendantes Remarque préliminaire Somme de v.a. normales indépendantes Combinaison linéaire de v.a. normales indépendantes Distribution de la moyenne empirique d'une distribution normale |
||
|
TUTORIEL |
||
_______________________________________________________________
|
Tutoriel 4 |
L'animation et l'exercice suivants illustrent la notion de "paramètre aléatoire".
Nous définissons la v.a. X en décrivant la façon dont une de ses réalisations est obtenue.
* Y est une v.a. de distribution
normale N(0, s²). Soit m la valeur d'un tirage de Y.
* Soit maintenant la distribution normale N(m,
s²). Nous en tirons une observation, que nous
considérons comme une réalisation de X.
Autrement dit, la distribution de X peut être interprétée comme étant :
* Une distribution normale N(m, s²),
* Dont le paramètre µ est lui-même une v.a. de distribution normale : µ~ N(0, s²).
-----
Quelle est la distribution de X ?
Dans le Tutoriel ci-dessous, nous donnons deux solutions :
1) Une solution "courte", qui fait appel aux résultats du Tutoriel précédent.
2) Une solution "longue" mais instructive, qui est un exemple de calcul d'une densité de probabilité connaissant la densité conditionnellement à une variable auxiliaire, ainsi que la distribution de cette variable de conditionnement.
|
|
* La distribution de µ est la gaussienne verte dans la partie supérieure de l'animation. Son écart-type (s) peut être modifié par le curseur vertical situé à la droite de cette courbe.
* La distribution N(0, s²) est la gaussienne bleue située dans la partie médiane de l'animation. Son écart-type (s) peut être modifié par le curseur vertical situé à la droite de cette courbe.
* La distribution théorique de X est la courbe rouge située dans la partie inférieure de l'animation. Observez que tout changement de s ou de s se traduit par une modification de la distribution de X.
-----
* Cliquez à plusieurs reprises sur "Next". Un point vert est tiré de la distribution N(0, s²). Ce point définit la position de la moyenne de la distribution bleue, d'où est ensuite tiré un point bleu.
Le but de l'exercice est de calculer la distribution des points bleus..
-----
* Cliquez sur "Go", et observez la construction progressive de l'histogramme de la distribution de X.
DISTRIBUTION NORMALE DONT LA MOYENNE
EST ELLE-MÊME UNE V.A. NORMALE
|
Première solution Deuxième solution : calcul d'une densité connaissant
la densité conditionnelle Animation interactive |
||
|
TUTORIEL |
||
_____________________________________________________
Voir aussi:
|