|
Animation interactive |
Fisher (Distribution F de)
Aussi connue sous les noms de distribution de Snedecor, ou de Fisher-Snedecor.
Devant deux échantillons issus de deux distributions normales indépendantes, nous nous posons la question :
Les variances de ces deux distributions normales sont-elles égales ?
1) Les échantillons peuvent avoir des tailles différentes.
2) Les
moyennes des distributions ne joueront aucun rôle dans la suite.
Si les variances des deux distributions sont effectivement égales, on s'attend à ce que les variances des deux échantillons soient approximativement égales. Par contre, si les variances des deux échantillons sont très différentes (image inférieure de l'illustration ci-dessus), on peut raisonnablement penser que les deux distributions mères ont des variances différentes.
Ce genre de raisonnement conduit tout naturellement à un test basé sur la comparaison des variances des deux échantillons. Tout ce que nous avons à faire est identifier une bonne statistique de test.
Soient donc les deux distributions normales N(µ1, s²1) et N(µ2, s²2 ) (rappelons que les moyennes ne joueront aucun rôle).
Nous voulons tester :
* L'hypothèse nulle H0 : s²1 = s²2
* Contre l'hypothèse alternative H1 : s²1
s²2 .
La statistique du test sera simplement le rapport des variances des deux échantillons. Rappelons que pour toute distribution, la quantité s² définie par :
s² = 1/(n - 1).Si(xi
-
)²
est la variance "corrigée" de l'échantillon, et est un estimateur sans biais de la variance de la distribution.
Avec des notations évidentes, nous définissons la quantité F par :
F = s1² /s2²
qui semble être une bonne candidate comme "statistique de test" : nous aurons naturellement tendance à rejeter H0 si la valeur de F est trop différente de 1.
Notons :
* n la taille du premier échantillon,
* m la taille du second échantillon.
Nous savons que :
* (n - 1)s1²/s1²
~
n
- 1
* (m - 1)s2²/s2²
~
m
- 1
de sorte que, si l'hypothèse nulle s²1 = s²2 est vraie, la quantité :
F = s1² /s2² est
distribuée comme [
n-1
/(n-1)] / [
m-1
/(m-1)]
qui ne dépend pas de la variance commune s² des deux distributions, et peut donc être utilisée comme statistique de test.
Il se trouve que la distribution de F peut être calculée explicitement. Elle est connue sous le nom de distribution Fn - 1, m - 1 de Fisher. Elle dépend de deux indices entiers, que l'on appelle ses degrés de liberté.
Vous trouverez ci-dessous une animation interactive décrivant le distribution F.
On montre facilement que pour un quantile donné a, on a:
Fa , n, m = F(1 - a ), m, n
Cette symétrie est utilisée pour transformer un test naturellement bilatéral en un test unilatéral, plus facile à utiliser. En pratique, les deux échantillons sont numérotés de façon à ce que F ait une valeur supérieure à 1.
Pour un niveau de signification a donné, l'hypothèse nulle H0 : s²1 = s²2 sera rejetée si la valeur de F est supérieure à Fa , n - 1, m - 1 : cette valeur est celle de la limite gauche de la zone jaune dans l'illustration ci-dessous.

Nous pouvons maintenant donner de la distribution F une définition formelle ne faisant plus référence au problème qui lui a donné naissance.
Par définition :
|
* X² ~ * Y² ~ * X² et Y² indépendantes. |
L'importance de cette définition vient de ce que plusieurs
quantités (sans rapport direct avec le problème des variances estimées) seront
définies comme le rapport de deux variables
indépendantes,
chacune divisée par son nombre de degrés de liberté.
C'est par exemple cette définition qui sera retenue :
* Pour calculer la distribution de la statistique d'ANOVA.
* Pour calculer la distribution de la statistique du test des modèles emboîtés en Régression Linéaire Multiple.
_________________________________________________________________
L'animation interactive suivante illustre la distribution de Fisher.
Cadres supérieurs
Les cadres supérieurs montrent deux distributions normales standard, ainsi que deux échantillons issus de ces distributions de populations respectives n et m. Vous pouvez changer la taille des échantillons avec les boutons "Nb Points".
Les estimations des variances de ces distribution sont affichées sous les cadres respectifs.
Cadre inférieur
Le cadre inférieur montre la distribution Fn-1, m-1. Notez que les degrés de liberté ("df") sont inférieurs d'une unité à n et m.
La ligne verte descendant du bord supérieur du cadre marque la moyenne de la distribution.
Le mode de la distribution et sa valeur sont également affichés.
La valeur de la statistique de Fisher (rapport des variances estimées) est affichée en bas du cadre.
__________________
Faites varier le nombre de points des échantillons
et observez les modifications de la courbe F. Pour ne pas être gêné par
les échantillons, vous pouvez cliquer sur le bouton "Mask samples".
Forme générale
* F, comme rapport de deux nombres positifs, n'est pas définie pour les valeurs négatives.
* F sétend jusqu'à l'infini: rien n'empêche le rapport des deux variances estimées d'être aussi grand que l'ont veut, bien qu'avec des probabilités de plus en plus faibles faibles pour les valeurs de plus en plus grandes.
* Pour n
4
(df
3),
toutes les courbes ont la même forme générale en "cloche asymétrique".
Elles passent toutes par l'origine.
* Pour n = 3 (df1 = 2), la courbe change radicalement et devient monotone décroissante, pour toute valeur de m. A partir de la forme analytique de Fn,m , montrez que quel que soit m, l'ordonnée à l'origine est toujours 1.
* Pour n = 2 (df1 = 1), les courbes sont monotones décroissantes pour tout m, mais l'axe vertical est maintenant une asymptote.
Mode
* L'abscisse du mode (quand il existe) est toujours inférieure à 1.
* Faites croître n (>3), et observez que l'abscisse du mode augmente, tout en restant toujours inférieure à 1. Observez également que la hauteur du mode commence par diminuer, passe par un minimum puis augmente pour une valeur de m donnée.
* Pour un m donné, la courbe se "resserre" pour les grandes valeurs de n.
* Faites croître m (deuxième échantillon). L'abscisse du mode augmente, tout en restant toujours inférieure à 1. La hauteur du mode augmente pour une valeur de n donnée: la courbe se "resserre" pour les grandes valeurs de m.
* On montre que l'abscisse
du mode tend vers 1 par valeurs inférieures quand n et m
+
simultanément.
Moyenne
* La moyenne est toujours supérieure à 1.
* Elle ne change pas quand vous faites varier n. Elle ne dépend que de m.
* Elle tend vers 1 par
valeurs supérieures quand m
+
.
* Elle augmente très vite quand m diminue. En fait, pour m = 3 et m = 2 (df2 = 2 et 1), la distribution F n'a pas de moyenne, quelle que soit la valeur de n. Nous avons là deux exemples de distributions n'ayant pas de moyenne (l'exemple le plus classique étant la distribution de Cauchy).
Donc mode et moyenne tendent vers 1 quand n et m tendent vers l'infini simultanément, et la distribution s'écarte alors de moins en moins de la symétrie.
_____________________
Après avoir choisi les nombres de points des échantillons, cliquez sur "Go" et observez la construction de l'histogramme de distribution F correspondante.
_____________________________________________________
|
Tutoriel |
Nous établissons la forme analytique, assez complexe, de la distribution F de Fisher. Ce Tutoriel est technique, et de peu d'utilité pour le praticien.
Il fait partie d'un Tutoriel plus général sur les fonctions de variables aléatoires, et plus particulièrement sur le calcul de la distribution du rapport de deux variables aléatoires indépendantes.
FORME ANALYTIQUE DE LA DISTRIBUTION F DE FISHER
|
Forme analytique de la distribution F de Fisher |
||
|
TUTORIEL |
||
_________________________________________________
Voir aussi :