Animation interactive

Fisher  (Distribution F de)

Aussi connue sous les noms de distribution de Snedecor, ou de Fisher-Snedecor.

Logique de la distribution F

Devant deux échantillons issus de deux distributions normales indépendantes, nous nous posons la question :

Les variances de ces deux distributions normales sont-elles égales ?

 

 

1) Les échantillons peuvent avoir des tailles différentes.
2) Les moyennes des distributions ne joueront aucun rôle dans la suite.

 

Si les variances des deux distributions sont effectivement égales, on s'attend à ce que les variances des deux échantillons soient approximativement égales. Par contre, si les variances des deux échantillons sont très différentes (image inférieure de l'illustration ci-dessus), on peut raisonnablement penser que les deux distributions mères ont des variances différentes.

Ce genre de raisonnement conduit tout naturellement à un test basé sur la comparaison des variances des deux échantillons. Tout ce que nous avons à faire est identifier une bonne statistique de test.

Le test F (ou "de comparaison des variances")

Soient donc les deux distributions normales N(µ1, s²1) et N(µ2, s²2 )  (rappelons que les moyennes ne joueront aucun rôle).

Nous voulons tester :

    * L'hypothèse nulle H0 : s²1 = s²2 

    * Contre l'hypothèse alternative  H1 : s²1  s²2 .

La statistique du test

La statistique du test sera simplement le rapport des variances des deux échantillons. Rappelons que pour toute distribution, la quantité s² définie par :

s² = 1/(n - 1).Si(xi -

est la variance "corrigée" de l'échantillon, et est un estimateur sans biais de la variance de la distribution.

Avec des notations évidentes, nous définissons la quantité F par :

F = s1² /s2²

qui semble être une bonne candidate comme "statistique de test" : nous aurons naturellement tendance à rejeter H0 si la valeur de F est trop différente de 1.

Distribution de la statistique de test

Notons :

    * n la taille du premier échantillon,

    * m la taille du second échantillon.

 

Nous savons que :

    * (n - 1)s1²/s1² ~n - 1  

    * (m - 1)s2²/s2² ~m - 1  

 

de sorte que, si l'hypothèse nulle s²1 = s²2 est vraie, la quantité :

F = s1² /s2²       est distribuée comme      [n-1 /(n-1)] / [m-1 /(m-1)]

 

qui ne dépend pas de la variance commune s² des deux distributions, et peut donc être utilisée comme statistique de test.

Il se trouve que la distribution de F peut être calculée explicitement. Elle est connue sous le nom de distribution Fn - 1, m - 1 de Fisher. Elle dépend de deux indices entiers, que l'on appelle ses degrés de liberté.

Vous trouverez ci-dessous une animation interactive décrivant le distribution F.

 

Le test de comparaison des variances (ou "test F")

On montre facilement que pour un quantile donné a, on a:

Fa , n, m  = F(1 - a ),  m, n 

Cette symétrie est utilisée pour transformer un test naturellement bilatéral en un test unilatéral, plus facile à utiliser. En pratique, les deux échantillons sont numérotés de façon à ce que F ait une valeur supérieure à 1.

Pour un niveau de signification a donné, l'hypothèse nulle H0 : s²1 = s²2 sera rejetée si la valeur de F est supérieure à Fa , n - 1, m - 1 : cette valeur est celle de la limite gauche de la zone jaune dans l'illustration ci-dessous.

 

 

 

Définition formelle de la distribution F

Nous pouvons maintenant donner de la distribution F une définition formelle ne faisant plus référence au problème qui lui a donné naissance.

Par définition :

 

 

* X² ~ n

* Y² ~ m

* X² et Y² indépendantes.

 

 

L'importance de cette définition vient de ce que plusieurs quantités (sans rapport direct avec le problème des variances estimées) seront définies comme le rapport de deux variables  indépendantes, chacune divisée par son nombre de degrés de liberté.

 

C'est par exemple cette définition qui sera retenue :

    * Pour calculer la distribution de la statistique d'ANOVA.

    * Pour calculer la distribution de la statistique du test des modèles emboîtés en Régression Linéaire Multiple.

_________________________________________________________________


L'animation interactive suivante illustre la distribution de Fisher.

 

 

Le "Livre des Animations" sur votre ordinateur

 

  

 

Cadres supérieurs

Les cadres supérieurs montrent deux distributions normales standard, ainsi que deux échantillons issus de ces distributions de populations respectives n et m. Vous pouvez changer la taille des échantillons avec les boutons "Nb Points".

Les estimations des variances de ces distribution sont affichées sous les cadres respectifs.

 

Cadre inférieur

Le cadre inférieur montre la distribution Fn-1, m-1. Notez que les degrés de liberté ("df") sont inférieurs d'une unité à n et m.

La ligne verte descendant du bord supérieur du cadre marque la moyenne de la distribution.

Le mode de la distribution et sa valeur sont également affichés.

La valeur de la statistique de Fisher (rapport des variances estimées) est affichée en bas du cadre.

__________________


Faites varier le nombre de points des échantillons et observez les modifications de la courbe F. Pour ne pas être gêné par les échantillons, vous pouvez cliquer sur le bouton "Mask samples".
 

   Forme générale

    * F, comme rapport de deux nombres positifs, n'est pas définie pour les valeurs négatives.

    * F sétend jusqu'à l'infini: rien n'empêche le rapport des deux variances estimées d'être aussi grand que l'ont veut, bien qu'avec des probabilités de plus en plus faibles faibles pour les valeurs de plus en plus grandes.

    * Pour n  4 (df  3), toutes les courbes ont la même forme générale en "cloche asymétrique". Elles passent toutes par l'origine.

    * Pour n = 3 (df1 = 2), la courbe change radicalement et devient monotone décroissante, pour toute valeur de m. A partir de la forme analytique de  Fn,m , montrez que quel que soit m, l'ordonnée à l'origine est toujours 1.

    * Pour n = 2 (df1 = 1), les courbes sont monotones décroissantes pour tout m, mais l'axe vertical est maintenant une asymptote.

 

   Mode

    * L'abscisse du mode (quand il existe) est toujours inférieure à 1.

    * Faites croître n (>3), et observez que l'abscisse du mode augmente, tout en restant toujours inférieure à 1. Observez également que la hauteur du mode commence par diminuer, passe par un minimum puis augmente pour une valeur de m donnée.

    * Pour un m donné, la courbe se "resserre" pour les grandes valeurs de n.

    * Faites croître m (deuxième échantillon). L'abscisse du mode augmente, tout en restant toujours inférieure à 1. La hauteur du mode augmente pour une valeur de n donnée: la courbe se "resserre" pour les grandes valeurs de m.

    * On montre que l'abscisse du mode tend vers 1 par valeurs inférieures quand n et m  + simultanément.


   Moyenne

    * La moyenne est toujours supérieure à 1.

    * Elle ne change pas quand vous faites varier n. Elle ne dépend que de m.

    * Elle tend vers 1 par valeurs supérieures quand m  +.

    * Elle augmente très vite quand m diminue. En fait, pour m = 3 et m = 2 (df2 = 2 et 1), la distribution F n'a pas de moyenne, quelle que soit la valeur de n. Nous avons là deux exemples de distributions n'ayant pas de moyenne (l'exemple le plus classique étant la distribution de Cauchy).

    

Donc mode et moyenne tendent vers 1 quand n et m tendent vers l'infini simultanément, et la distribution s'écarte alors de moins en moins de la symétrie.

_____________________

 

Après avoir choisi les nombres de points des échantillons, cliquez sur "Go" et observez la construction de l'histogramme de distribution F correspondante.

_____________________________________________________

 

 

Tutoriel

 

Nous établissons la forme analytique, assez complexe, de la distribution F de Fisher. Ce Tutoriel est technique, et de peu d'utilité pour le praticien.

Il fait partie d'un Tutoriel plus général sur les fonctions de variables aléatoires, et plus particulièrement sur le calcul de la distribution du rapport de deux variables aléatoires indépendantes.

 

 

FORME ANALYTIQUE DE LA DISTRIBUTION F DE FISHER

 Forme analytique de la distribution F de Fisher

TUTORIEL

 

 _________________________________________________

 

 Voir aussi

ANOVA

Distribution du Chi-2

Téléchargez ce Glossaire