Animation interactive

Fisher  (Distribution F de)

Aussi connue sous les noms de distribution de Snedecor, ou de Fisher-Snedecor.

Logique de la distribution F

Devant deux échantillons issus de deux distributions normales indépendantes, nous nous posons la question :

Les variances de ces deux distributions normales sont-elles égales ?

 

 

1) Les échantillons peuvent avoir des tailles différentes.
2) Les moyennes des distributions ne joueront aucun rôle dans la suite.

 

Si les variances des deux distributions sont effectivement égales, on s'attend à ce que les variances des deux échantillons soient approximativement égales. Par contre, si les variances des deux échantillons sont très différentes (image inférieure de l'illustration ci-dessus), on peut raisonnablement penser que les deux distributions mères ont des variances différentes.

Ce genre de raisonnement conduit tout naturellement à un test basé sur la comparaison des variances des deux échantillons. Tout ce que nous avons à faire est identifier une bonne statistique de test.

Le test F (ou "de comparaison des variances")

Soient donc les deux distributions normales N(µ1, ²1) et N(µ2, ²2 )  (rappelons que les moyennes ne joueront aucun rôle).

Nous voulons tester :

    * L'hypothèse nulle H0 : ²1 = ²2 

    * Contre l'hypothèse alternative  H1 : ²1  ²2 .

La statistique du test

La statistique du test sera simplement le rapport des variances des deux échantillons. Rappelons que pour toute distribution, la quantité S ² définie par :

S ² = 1/(n - 1).i(xi -

est la variance "corrigée" de l'échantillon, et est un estimateur sans biais de la variance de la distribution.

Avec des notations évidentes, nous définissons la quantité F par :

F = S1² /S2²

qui semble être une bonne candidate comme "statistique de test" : nous aurons naturellement tendance à rejeter H0 si la valeur de F est trop différente de 1.

Distribution de la statistique de test

Notons :

    * n la taille du premier échantillon,

    * m la taille du second échantillon.

 

Nous savons que :

    * (n - 1)S1²/1² ~n - 1  

    * (m - 1)S2²/2² ~m - 1  

 

de sorte que, si l'hypothèse nulle ²1 = ²2  est vraie, la quantité :

F = S1² /S2²       est distribuée comme      [n-1 /(n-1)] / [m-1 /(m-1)]

 

qui ne dépend pas de la variance commune ² des deux distributions, et peut donc être utilisée comme statistique de test.

Il se trouve que la distribution de F peut être calculée explicitement. Elle est connue sous le nom de distribution Fn - 1, m - 1 de Fisher. Elle dépend de deux indices entiers, que l'on appelle ses degrés de liberté.

-----

Vous trouverez ci-dessous une animation interactive décrivant le distribution F.

Le test de comparaison des variances (ou "test F")

On montre facilement que pour un quantile donné , on a:

F()n ,m  = F(1 - )n ,m 

Cette symétrie est utilisée pour transformer un test naturellement bilatéral en un test unilatéral, plus facile à utiliser. En pratique, les deux échantillons sont numérotés de façon à ce que F ait une valeur supérieure à 1.

Pour un niveau de signification  donné, l'hypothèse nulle H0 : ²1 = ²2 sera rejetée si la valeur de F est supérieure à F()n - 1, m - 1 : cette valeur est celle de la limite gauche de la zone jaune dans l'illustration ci-dessous.

 

 

Animation

L'animation suivante illustre la distribution de Fisher.

 

 

Le "Livre des Animations" sur votre ordinateur

 

  

 

Cadres supérieurs

Les cadres supérieurs montrent deux distributions normales standard, ainsi que deux échantillons issus de ces distributions de populations respectives n et m. Vous pouvez changer la taille des échantillons avec les boutons "Sample".

Les estimations des variances de ces distributions sont affichées sous les cadres respectifs.

 

Cadre inférieur

Le cadre inférieur montre la distribution Fn-1, m-1. Notez que les degrés de liberté ("df") sont inférieurs d'une unité à n et m.

La ligne verte descendant du bord supérieur du cadre marque la moyenne de la distribution.

Le mode de la distribution et sa valeur sont également affichés.

La valeur de la statistique de Fisher (rapport des variances estimées) est affichée en bas du cadre.

__________________


Faites varier les tailles des échantillons et observez les modifications de la courbe F.
 

   Forme générale

    * F, comme rapport de deux nombres positifs, n'est pas définie pour les valeurs négatives.

    * F s'étend jusqu'à l'infini: rien n'empêche le rapport des deux variances estimées d'être aussi grand que l'ont veut, bien qu'avec des probabilités de plus en plus faibles faibles pour les valeurs de plus en plus grandes.

    * Pour n  4 (df  3), toutes les courbes ont la même forme générale en "cloche asymétrique". Elles passent toutes par l'origine.

    * Pour n = 3 (df1 = 2), la courbe change radicalement et devient monotone décroissante, pour toute valeur de m. Nous montrerons que l'ordonnée à l'origine est alors toujours égale à 1 quelle que soit la valeur de m.

    * Pour n = 2 (df1 = 1), les courbes sont monotones décroissantes pour tout m, mais l'axe vertical est maintenant une asymptote.

 

   Mode

    * Le mode (quand il existe) est toujours inférieur à 1.

    * Faites croître n (>3), et observez que le mode augmente, tout en restant toujours inférieur à 1. Observez également que la hauteur du mode commence par diminuer, passe par un minimum puis augmente pour une valeur de m donnée.

    * Pour un m donné, la courbe se "resserre" pour les grandes valeurs de n.

    * Faites croître m (deuxième échantillon). Le mode augmente, tout en restant toujours inférieur à 1. La hauteur du mode augmente pour une valeur de n donnée: la courbe se "resserre" pour les grandes valeurs de m.

    * Nous montrerons que le mode tend vers 1 par valeurs inférieures quand n et m  + simultanément.


   Moyenne

    * La moyenne est toujours supérieure à 1.

    * Elle ne change pas quand vous faites varier n. Elle ne dépend que de m.

    * Elle tend vers 1 par valeurs supérieures quand m  +.

    * Elle augmente très vite quand m diminue. En fait, pour m = 3 et m = 2 (df2 = 2 et 1), la distribution F n'a pas de moyenne, quelle que soit la valeur de n. Nous avons là deux exemples de distributions n'ayant pas de moyenne (l'exemple le plus classique étant la distribution de Cauchy).

    

Donc mode et moyenne tendent vers 1 quand n et m tendent vers l'infini simultanément, et la distribution s'écarte alors de moins en moins de la symétrie.

_____________________

 

Après avoir choisi les tailles des échantillons, cliquez sur "Go" et observez la construction de l'histogramme de distribution F correspondante. Pour ne pas être gêné par les échantillons, vous pouvez cliquer sur le bouton "Mask samples".

Propriétés de la distribution F de Fisher

Densité de probabilité

Nous montrerons que la fonction de densité de probabilité de la distribution de Fisher est :

 

 

 

Moyenne

Nous montrerons que la moyenne de la distribution F, quand elle existe, est égale à :

 

 

Remarquez que :

    1) La moyenne n'existe pas pour m = 1 et m = 2.

    2) Quand la moyenne existe, sa valeur ne dépend que du deuxième degré de liberté (dénominateur), et pas du premier (n au numérateur).

    3) La moyenne tend vers 1 par valeurs supérieures quand m tend vers l'infini.

Mode

Nous montrerons que, dans le cas général, la distribution F a un unique mode dont l'abscisse est :

 

 

Remarquez que :

    1) Le mode est toujours plus petit que 1, mais converge vers 1 par valeurs inférieures quand n et m tendent vers l'infini.

    2) Le calcul général ne s'applique pas au cas n = 1. Nous montrerons que dans ce cas, l'axe vertical est une asymptote de la distribution F.

    3) Le mode est égal à 0 pour n = 2. La distribution F est alors monotone décroissante, et nous montrerons que son ordonnée à l'origine est égale à 1 pour toute valeur de m.

    4) Le mode est toujours inférieur à la moyenne (laquelle est toujours supérieure à 1), comme il se doit de la part d'une distribution à asymétrie positive.

Variance

Nous montrerons que, lorsqu'elle existe, la variance de la distribution F est égale à :

 

 

 

Remarquez que la variance n'existe pas pour m = 1, 2, 3, 4.

Inverse d'une variable F de Fisher

Nous montrerons que :

 

L'inverse d'une variable distribuée comme Fn ,m  suit la distribution Fm , n

 

Distributions F de Fisher et t de Student

Nous montrons ici que le carré d'une variable T de Student à m degrés de liberté suit la distribution F1, m.

 

Si   T ~ tm    alors   T ² ~ F1, m

  

Définition formelle de la distribution F

Nous pouvons maintenant donner de la distribution F une définition formelle ne faisant plus référence au problème qui lui a donné naissance.

Par définition :

 

 

* X ~ n

* Y ~ m

* X et Y indépendantes.

 

 

L'importance de cette définition vient de ce que plusieurs quantités (sans rapport direct avec le problème des variances estimées) seront définies comme le rapport de deux variables  indépendantes, chacune divisée par son nombre de degrés de liberté.

 

C'est par exemple cette définition qui sera retenue :

    * Pour calculer la distribution de la statistique d'ANOVA.

    * Pour calculer la distribution de la statistique du test des modèles emboîtés en Régression Linéaire Multiple,

ainsi que dans le résultat portant sur la distribution du carré de la distance de Mahalanobis.

Relation avec la distribution Beta

La distribution F de Fisher est liée à la distribution Beta.

Soit F une v.a. suivant la distribution de Fisher Fn ,m . Nous montrons ici que :

 

_________________________________________________________________

 

 

 

Tutoriel 1

 

Dans ce Tutoriel, nous établissons quelques propriétés de la distribution F de Fisher.

 

Densité de probabilité

    * Nous avons déjà calculé cette densité en traitant des propriétés générales de la distribution du rapport de deux variables aléatoires.

    * Mais dans ce Tutoriel-ci, nous choisissons une autre approche, moins souvent utilisée bien que tout aussi commode et efficace. Nous calculons dans un premier temps la fonction de répartition de la distribution F, qui apparaîtra sous une forme intégrale que nous n'aurons alors qu'à différencier pour obtenir la fonction de densité de probabilité.


Nous utilisons ici cette même approche pour calculer la fdp de la distribution t de Student.

 

Premiers moments

    La moyenne et la variance de la distribution F de Fisher peuvent se calculer par la méthode directe, mais l'aspect peu engageant de sa fonction de densité nous incite à repousser cette approche au Tutoriel suivant.

Nous allons ici utiliser une méthode indirecte, mais qui s'avèrera plus simple. Nous considérerons un moment de la distribution F comme étant l'espérance d'une fonction de deux v.a. Chi-2, puis ferons appel au théorème portant sur l'espérance d'une fonction de plusieurs variables aléatoires pour calculer cette espérance. Ceci nous permettra de trouver facilement les valeurs des moments d'ordre 1 (moyenne) et 2 de la distribution F, d'où nous déduirons ensuite sa variance.

 

Inverse d'une variable F

    Nous montrerons enfin que l'inverse d'une v.a. distribuée comme Fn ,m suit la distribution Fm ,n.

 

 

 

PROPRIETES DE LA DISTRIBUTION F DE FISHER

Densité de probabilité de la distribution F de Fisher

Densité de probabilité conjointe

Fonction de répartition

Densité de probabilité intermédiaire

Prise en compte des degrés de liberté

Mode

Cas particuliers

n = 1
           n = 2

Cas général

Premiers moments de la distribution F de Fisher

Moyenne

Moment du second ordre

Variance

Distribution de l'inverse d'une variable F de Fisher

TUTORIEL

_____________________________________________________

 

 

Tutoriel 2

 

Nous abordons à nouveau la question du calcul de la moyenne et de la variance de la distribution F de Fisher, mais par une méthode très différente de celle utilisée dans le Tutoriel précédent. Le lecteur doit d'ailleurs être prévenu que le contenu de ce Tutoriel est exclusivement mathématique, et n'apporte aucune compréhension supplémentaire de la distribution F d'un point de vue statistique. Néanmoins, la démonstration est intéressante par elle-même, et mérite d'être présentée.

 

L'idée directrice est la suivante : en raison de la forme du numérateur de la fdp de la distribution F (une puissance de x), la fdp ainsi que tous ses moments ont des formes mathématiques très semblables. De fait, ces quantités appartiennent toutes à une même famille d'intégrales dont nous montrerons qu'elles vérifient deux relations de récurrence distinctes. Ces relations nous permettront de relier un moment au moment d'ordre immédiatement supérieur. La condition de normalisation d'une fdp conduira alors simplement au calcul de la moyenne, et celle-ci au calcul du moment d'ordre 2, d'où nous déduirons la variance.

Si nécessaire, la méthode peut être étendue aux ordres supérieurs.

 

 

 

PREMIERS MOMENTS DE LA DISTRIBUTION F DE FISHER

(Deuxième méthode)

Intégrale I(α, β) définissant les moments

L'intégrale

Première relation de récurrence

Deuxième relation de récurrence

Relation de récurrence finale

Normalisation de la fdp

Moyenne

Moment du second ordre

Variance

TUTORIEL

 

 _____________________________________________________

 

 Voir aussi

ANOVA

Distribution t de Student

Distribution du Chi-2

Téléchargez ce Glossaire