Animation interactive

Normale  (Distribution)

Aussi appelée "Loi normale" ou "Distribution gaussienne", ou "Loi gaussienne".

 

De loin la distribution de probabilité la plus connue.

Définition de la distribution normale

Une variable aléatoire X est dite avoir une distribution normale si sa densité de probabilité (ddp) est égale à :

 

pour une certaine paire de valeurs des paramètres µ et s.


Le coefficient devant l'exponentielle n'est là que pour rendre l'intégrale de la fonction égale à 1.

    * µ est clairement un "paramètre de position", ou de "tendance centrale".

    * alors que s est un "paramètre d'échelle", ou "paramètre de dispersion".

 

Bien que le "vrai" paramètre soit s, les applications sont habituellement concernées par s², et en conséquence, la distribution normale de paramètres µ et s sera notée N(µ, s²).

-----

 

Vous retrouverez la forme en cloche symétrique de la distribution normale en de nombreuses occasions sur ce site, ainsi que dans tout texte portant sur la Statistique. Nous en donnons ici un premier exemple avec :

   * Une distribution normale (courbe supérieure verte), ainsi qu'un échantillon issu de cette distribution. La moyenne de cet échantillon est marquée d'un point rouge à partir duquel s'étend une ligne verticale rouge vers le bas.

   * Une autre distribution normale (courbe rouge inférieure), qui est la distribution théorique de la moyenne des échantillons tirés de la normale verte (nous démontrons ce résultat dans le Tutoriel ci-dessous).

 

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

    * Changez la valeur de l'écart-type de la courbe verte avec le curseur vertical situé dans l'angle supérieur droit de l'animation ("SD"), et observez les variations de largeur des deux gaussiennes.

    * Changez la taille de l'échantillon ("Sample size"), et observez le rétrécissement de la gaussienne rouge quand la taille de l'échantillon augmente.

    * Les autres contrôles s'expliquent d'eux-mêmes.

Moments

Nous avons tellement l'habitude de considérer :

    * µ comme la moyenne de la distribution normale

    * et s comme son écart-type,

 

qu'on en oublie parfois que ces résultats doivent être démontrés, ce que nous faisons ci-dessous.

-----

En anticipant quelque peu, on peut donc remarquer qu'une distribution normale est entièrement définie par les valeurs de ses deux premier moments.

Distribution normale standard

Nous verrons à de multiples reprises que la distribution normale particulière N(0, 1) joue un rôle central en Statistique. Elle porte le nom de distribution normale standard.

Origine de la distribution normale

La distribution normale fut introduite initialement comme forme limite de la distribution binomiale B(n, p) pour de grandes valeurs de n. L'authentique distribution binomiale est alors impossible à calculer exactement en raison de la présence de factorielles, qui conduisent rapidement à la manipulation de nombres gigantesques. Le besoin se fit alors sentir d'une formule approximative plus facile à manipuler. Après des calculs quelque peu laborieux, de Moivre fut le premier à obtenir la forme analytique ci-dessus. Plus précisément, il montra que si X est une v.a. B(n, p), alors la distribution de la variable Y définie par :

 

c'est à dire la version standardisée de X, converge vers N(0, 1) quand n tend vers l'infini.


La distribution de Poisson est une autre approximation de la distribution binomiale pour les grandes valeurs de n, qui est plus précise que la distribution normale lorsque p (ou 1 - p) a une valeur très petite.

Le Théorème Central Limite

Mais il s'avéra plus tard que la distribution normale a une origine plus profonde. Ce que de Moivre observa avec la distribution binomiale est en fait un cas particulier d'une situation beaucoup plus générale.

Soit {Xi}une suite infinie de v.a. indépendantes. Nous pouvons construire une autre suite infinie de v.a. définie par :

 

Yn est donc définie comme la somme des n premières Xi.

On montre alors que, sous des conditions assez peu contraignantes sur les {Xi}, la distribution de :

 

converge vers la distribution N(0, 1) quand n tend vers l'infini.

Ce résultat fondamental est connu sous le nom de "Théorème Central Limite", ou "Théorème de la Limite Centrale".

Vous vous convaincrez aisément que le résultat obtenu par de Moivre est un cas particulier du Théorème Central Limite, les variables Xi étant des variables de Bernoulli indépendantes de même paramètre p.

-----

Le Théorème Central Limite "explique" pourquoi tant de distributions observées dans les applications ressemblent à des distributions normales. Il arrive fréquemment qu'une grandeur soit le résultat de l'addition d'un très grand nombre de petites causes aléatoires. Alors, quelles que soient les distributions probabilistes de ces causes, la grandeur observée aura une distribution normale.

La distribution normale apparaît donc comme une distribution universelle.

Distributions dérivées de la distribution normale

De la distribution normale découlent plusieurs distributions importantes :

Distribution du Chi-2

La distribution de la variance empirique s² est telle que :

(n - 1)s²/s²

a une distribution qui ne dépend pas de s² et est connue sous le nom de "distribution du  à (n - 1) degrés de liberté" dont les propriétés sont détaillées ici.

La connaissance de cette distribution permet d'élaborer des intervalles de confiance et des tests portant sur la variance de la distribution normale.

-----

En dehors de la variance empirique de la distribution normale, plusieurs autres quantités suivent approximativement des distributions , ce qui conduit à l'élaboration d'un certain nombre de tests connus globalement sous le nom de "tests du Chi2".

Distribution t (de Student)

La moyenne empirique est distribuée comme N(µ, s²/n) (voir Tutoriel ci-dessous), et la moyenne empirique standardisée est donc distribuée comme N(0, 1). De ce résultat découlent les intervalles de confiance et les tests t les plus simples portant sur la valeur de la moyenne d'une distribution normale de variance connue.

Mais le plus souvent, la variance s² est inconnue, ce qui rend impossible la standardisation de la moyenne de l'échantillon. On peut cependant estimer s² par la variance de l'échantillon, et construire ainsi une quantité T qui ne dépend pas de s², et dont on connait la distribution : c'est la distribution t de Student à (n - 1) degrés de liberté (où n est la taille de l'échantillon).

 

Il est alors possible d'élaborer des intervalles de confiance et des tests portant :

    * Sur la valeur de la moyenne d'une distribution normale de variance inconnue,

    * Sur la différence des moyennes de deux distributions normales de même variance inconnue.

-----

D'autres quantités suivent également des distributions t, en particulier lors de l'élaboration d'intervalles de confiance sur les valeurs des paramètres d'une Régression Linéaire Multiple.

Distribution F (de Fisher)

Le rapport des variances de deux échantillons issus de deux distributions normales indépendantes et de même variance suit une distribution appelée distribution F (de Fisher).

Les propriétés de la distribution F sont détaillées ici.

-----

D'autres quantités suivent également la distribution F, qui a un rôle central :

    * En Analyse de la Variance (ANOVA).

    * En Régression Linéaire Simple ou Multiple dans les tests portant sur la validité des modèles ajustés.

Indépendance de la moyenne empirique et de la variance empirique

Nous démontrons ici que la moyenne empirique et la variance empirique s² d'une distribution normale sont deux variables aléatoires indépendantes. Ce résultat important est une propriété caractéristique de la distribution normale :  une distribution dont les moyenne et variance empiriques sont indépendantes est obligatoirement normale.

Statistique exhaustive

Nous montrons ici que la moyenne empirique  est une statistique exhaustive pour la moyenne µ de la distribution normale.

Famille exponentielle

Nous montrons ici que la distribution normale appartient à la famille exponentielle. Nous en déduirons que est un estimateur efficace de la moyenne µ.

_____________________________________________________

 

 

Tutoriel 1

 

Dans ce premier Tutoriel, nous établissons les propriétés élémentaires de la distribution normale.

    * Nous en calculons le moyenne et la variance à partir de leurs définitions. Le calcul de la moyenne est simple, celui de la variance un peu plus complexe. Nous découvrirons sans surprise que la moyenne est égale à µ et que la variance est égale à s².

    * Puis nous calculons la fonction génératrice des moments de la distribution normale. Nous calculerons à nouveau la moyenne et la variance de la distribution à partir de cette fgm.

-----

Nous insistons sur l'importance de la distribution normale standard N(0, 1), qui est la pierre angulaire des intervalles de confiance et des tests t les plus simples.

 

 

PROPRIETES ELEMENTAIRES

DE LA DISTRIBUTION NORMALE

Moyenne et variance (Calcul direct)

Moyenne

Variance

Fonction génératrice des moments

Moments

Moyenne

Variance

Distribution normale standard

Définition

Fonction de répartition

Importance de la distribution normale standard

Exemple 1

Exemple 2

TUTORIEL

______________________________________________

 

 

Tutoriel 2

 

Nous procédons maintenant à l'estimation des paramètres de la distribution normale.

Nous utilisons d'abord la Méthode des moments, puis la méthode du Maximum de Vraisemblance (MV). Nous verrons que la solution par MV est unique (ce qui n'est pas toujours le cas). Nous verrons également que l'estimateur de la variance par la méthode des moments est meilleur que celui du MV, qui souffre d'un léger biais (cette situation est plus une exception qu'une règle).

Ces résultats sont illustrés par une animation interactive.

 

 

ESTIMATION DES PARAMETRES

DE LA DISTRIBUTION NORMALE

Estimation par la méthode des moments

Estimation par la méthode du Maximum de Vraisemblance

La log-vraisemblance

Estimateur du MV de la moyenne

Estimateur du MV de la variance

Estimateur

Biais de l'estimateur de la variance

_______________________________

 

 Animation interactive

* Echantillon tiré d'une distribution normale.

* Ajustement manuel d'une distribution normale
    jusqu'à son Maximum de Vraisemblance.

TUTORIAL

 ________________________________________________________

 

 

Tutoriel 3

 

Nous établissons maintenant deux propriétés importantes des variables aléatoires normalement distribuées :
   * La transformée linéaire d'une v.a. normale est normale, et nous calculons ses paramètres.
   * La somme de v.a. normales indépendantes est normale, et nous calculons ses paramètres. La condition d'indépendance est importante, et nous donnons ici deux exemples de paires {X, Y} de variables normales mais non indépendantes, et dont les sommes Z = X + Y ne sont pas normalement distribuées.


Nous déduirons de ces résultats la distribution de la moyenne empirique de la distribution normale.

 

 

PROPRIETES ELEMENTAIRES

DE V.A. NORMALEMENT DISTRIBUEES

Transformation linéaire d'une variable normale

Première solution : propriétés générales des transformations de variables

Deuxième solution : fonction génératrice des moments

Combinaison de v.a. normales indépendantes

Remarque préliminaire

Somme de v.a. normales indépendantes

Combinaison linéaire de v.a. normales indépendantes

Distribution de la moyenne empirique d'une distribution normale

TUTORIEL

_______________________________________________________________

 

 

Tutoriel 4

 

L'animation et l'exercice suivants illustrent la notion de "paramètre aléatoire".

Nous définissons la v.a. X en décrivant la façon dont une de ses réalisations est obtenue.

   * Y est une v.a. de distribution normale N(0, s²). Soit m la valeur d'un tirage de Y.
   * Soit maintenant la distribution normale N(m, s²). Nous en tirons une observation, que nous considérons comme une réalisation de X.

Autrement dit, la distribution de X peut être interprétée comme étant :

    * Une distribution normale N(m, s²),

    * Dont le paramètre µ est lui-même une v.a. de distribution normale : µ~ N(0, s²).

-----

Quelle est la distribution de X ?

Dans le Tutoriel  ci-dessous, nous donnons deux solutions :

    1) Une solution "courte", qui fait appel aux résultats du Tutoriel précédent.

    2) Une solution "longue" mais instructive,  qui est un exemple de calcul d'une densité de probabilité connaissant la densité conditionnellement à une variable auxiliaire, ainsi que la distribution de cette variable de conditionnement.

 

 

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

    * La distribution de  µ est la gaussienne verte dans la partie supérieure de l'animation. Son écart-type (s) peut être modifié par le curseur vertical situé à la droite de cette courbe.

    * La distribution N(0, s²) est la gaussienne bleue située dans la partie médiane de l'animation. Son écart-type (s) peut être modifié par le curseur vertical situé à la droite de cette courbe.

    * La distribution théorique de X est la courbe rouge située dans la partie inférieure de l'animation. Observez que tout changement de s ou de s se traduit par une modification de la distribution de X.

-----

    * Cliquez à plusieurs reprises sur "Next". Un point vert est tiré de la distribution N(0, s²). Ce point définit la position de la moyenne de la distribution bleue, d'où est ensuite tiré un point bleu.

Le but de l'exercice est de calculer la distribution des points bleus..

-----

    * Cliquez sur "Go", et observez la construction progressive de l'histogramme de la distribution de X.

 

 

DISTRIBUTION NORMALE DONT LA MOYENNE

EST ELLE-MÊME UNE V.A. NORMALE

Première solution

Deuxième solution : calcul d'une densité connaissant la densité conditionnelle
et la distribution de la variable de conditionnement

Animation interactive

TUTORIEL

 

_____________________________________________________

 

Voir aussi:

Distribution binomiale

Théorème Central Limite

Tests t

Distribution normale bivariée

Distribution normale multivariée

Téléchargez ce Glossaire