|
Animation interactive |
Fisher (Distribution F de)
Aussi connue sous les noms de distribution de Snedecor, ou de Fisher-Snedecor.
Devant deux échantillons issus de deux distributions normales indépendantes, nous nous posons la question :
Les variances de ces deux distributions normales sont-elles égales ?
1) Les échantillons peuvent avoir des tailles différentes.
2) Les
moyennes des distributions ne joueront aucun rôle dans la suite.
Si les variances des deux distributions sont effectivement égales, on s'attend à ce que les variances des deux échantillons soient approximativement égales. Par contre, si les variances des deux échantillons sont très différentes (image inférieure de l'illustration ci-dessus), on peut raisonnablement penser que les deux distributions mères ont des variances différentes.
Ce genre de raisonnement conduit tout naturellement à un test basé sur la comparaison des variances des deux échantillons. Tout ce que nous avons à faire est identifier une bonne statistique de test.
Soient donc les deux distributions normales N(µ1,
²1) et N(µ2,
²2 ) (rappelons que les moyennes
ne joueront aucun rôle).
Nous voulons tester :
* L'hypothèse nulle H0
:
²1 =
²2
* Contre l'hypothèse alternative H1 :
²1
²2 .
La statistique du test sera simplement le rapport des variances des deux échantillons. Rappelons que pour toute distribution, la quantité S ² définie par :
S ² = 1/(n - 1).
i(xi
-
)²
est la variance "corrigée" de l'échantillon, et est un estimateur sans biais de la variance de la distribution.
Avec des notations évidentes, nous définissons la quantité F par :
F = S1² /S2²
qui semble être une bonne candidate comme "statistique de test" : nous aurons naturellement tendance à rejeter H0 si la valeur de F est trop différente de 1.
Notons :
* n la taille du premier échantillon,
* m la taille du second échantillon.
Nous savons que :
* (n - 1)S1²/
1²
~
n
- 1
* (m - 1)S2²/
2²
~
m
- 1
de sorte que, si l'hypothèse nulle
²1 =
²2 est vraie, la quantité :
F = S1² /S2² est
distribuée comme [
n-1
/(n-1)] / [
m-1
/(m-1)]
qui ne dépend pas de la variance commune
² des
deux distributions, et peut donc être utilisée comme statistique de test.
Il se trouve que la distribution de F peut être calculée explicitement. Elle est connue sous le nom de distribution Fn - 1, m - 1 de Fisher. Elle dépend de deux indices entiers, que l'on appelle ses degrés de liberté.
-----
Vous trouverez ci-dessous une animation interactive décrivant le distribution F.
On montre facilement que pour un quantile
donné
, on a:
F(
)n
,m = F(1 -
)n
,m
Cette symétrie est utilisée pour transformer un test naturellement bilatéral en un test unilatéral, plus facile à utiliser. En pratique, les deux échantillons sont numérotés de façon à ce que F ait une valeur supérieure à 1.
Pour un niveau de signification
donné,
l'hypothèse nulle H0
:
²1 =
²2 sera
rejetée si la valeur de F est supérieure à F(
)n - 1, m - 1
: cette valeur est celle de la limite gauche de la zone jaune dans l'illustration
ci-dessous.
L'animation suivante illustre la distribution de Fisher.
Cadres supérieurs
Les cadres supérieurs montrent deux distributions normales standard, ainsi que deux échantillons issus de ces distributions de populations respectives n et m. Vous pouvez changer la taille des échantillons avec les boutons "Sample".
Les estimations des variances de ces distributions sont affichées sous les cadres respectifs.
Cadre inférieur
Le cadre inférieur montre la distribution Fn-1, m-1. Notez que les degrés de liberté ("df") sont inférieurs d'une unité à n et m.
La ligne verte descendant du bord supérieur du cadre marque la moyenne de la distribution.
Le mode de la distribution et sa valeur sont également affichés.
La valeur de la statistique de Fisher (rapport des variances estimées) est affichée en bas du cadre.
__________________
Faites varier les tailles des échantillons
et observez les modifications de la courbe F.
Forme générale
* F, comme rapport de deux nombres positifs, n'est pas définie pour les valeurs négatives.
* F s'étend jusqu'à l'infini: rien n'empêche le rapport des deux variances estimées d'être aussi grand que l'ont veut, bien qu'avec des probabilités de plus en plus faibles faibles pour les valeurs de plus en plus grandes.
* Pour n
4
(df
3),
toutes les courbes ont la même forme générale en "cloche asymétrique".
Elles passent toutes par l'origine.
* Pour n = 3 (df1 = 2), la courbe change radicalement et devient monotone décroissante, pour toute valeur de m. Nous montrerons que l'ordonnée à l'origine est alors toujours égale à 1 quelle que soit la valeur de m.
* Pour n = 2 (df1 = 1), les courbes sont monotones décroissantes pour tout m, mais l'axe vertical est maintenant une asymptote.
Mode
* Le mode (quand il existe) est toujours inférieur à 1.
* Faites croître n (>3), et observez que le mode augmente, tout en restant toujours inférieur à 1. Observez également que la hauteur du mode commence par diminuer, passe par un minimum puis augmente pour une valeur de m donnée.
* Pour un m donné, la courbe se "resserre" pour les grandes valeurs de n.
* Faites croître m (deuxième échantillon). Le mode augmente, tout en restant toujours inférieur à 1. La hauteur du mode augmente pour une valeur de n donnée: la courbe se "resserre" pour les grandes valeurs de m.
* Nous montrerons que le mode tend vers 1 par valeurs inférieures quand n et m
+
simultanément.
Moyenne
* La moyenne est toujours supérieure à 1.
* Elle ne change pas quand vous faites varier n. Elle ne dépend que de m.
* Elle tend vers 1 par
valeurs supérieures quand m
+
.
* Elle augmente très vite quand m diminue. En fait, pour m = 3 et m = 2 (df2 = 2 et 1), la distribution F n'a pas de moyenne, quelle que soit la valeur de n. Nous avons là deux exemples de distributions n'ayant pas de moyenne (l'exemple le plus classique étant la distribution de Cauchy).
Donc mode et moyenne tendent vers 1 quand n et m tendent vers l'infini simultanément, et la distribution s'écarte alors de moins en moins de la symétrie.
_____________________
Après avoir choisi les tailles des échantillons, cliquez sur "Go" et observez la construction de l'histogramme de distribution F correspondante. Pour ne pas être gêné par les échantillons, vous pouvez cliquer sur le bouton "Mask samples".
Nous montrerons que la fonction de densité de probabilité de la distribution de Fisher est :
|
|
Nous montrerons que la moyenne de la distribution F, quand elle existe, est égale à :
|
|
Remarquez que :
1) La moyenne n'existe pas pour m = 1 et m = 2.
2) Quand la moyenne existe, sa valeur ne dépend que du deuxième degré de liberté (dénominateur), et pas du premier (n au numérateur).
3) La moyenne tend vers 1 par valeurs supérieures quand m tend vers l'infini.
Nous montrerons que, dans le cas général, la distribution F a un unique mode dont l'abscisse est :
|
|
Remarquez que :
1) Le mode est toujours plus petit que 1, mais converge vers 1 par valeurs inférieures quand n et m tendent vers l'infini.
2) Le calcul général ne s'applique pas au cas n = 1. Nous montrerons que dans ce cas, l'axe vertical est une asymptote de la distribution F.
3) Le mode est égal à 0 pour n = 2. La distribution F est alors monotone décroissante, et nous montrerons que son ordonnée à l'origine est égale à 1 pour toute valeur de m.
4) Le mode est toujours inférieur à la moyenne (laquelle est toujours supérieure à 1), comme il se doit de la part d'une distribution à asymétrie positive.
Nous montrerons que, lorsqu'elle existe, la variance de la distribution F est égale à :
|
|
Remarquez que la variance n'existe pas pour m = 1, 2, 3, 4.
Nous montrerons que :
|
L'inverse d'une variable distribuée comme Fn ,m suit la distribution Fm , n |
Nous montrons ici que le carré d'une variable T de Student à m degrés de liberté suit la distribution F1, m.
|
Si T ~ tm alors T ² ~ F1, m |
Nous pouvons maintenant donner de la distribution F une définition formelle ne faisant plus référence au problème qui lui a donné naissance.
Par définition :
|
* X ~ * Y ~ * X et Y indépendantes. |
L'importance de cette définition vient de ce que plusieurs
quantités (sans rapport direct avec le problème des variances estimées) seront
définies comme le rapport de deux variables
indépendantes,
chacune divisée par son nombre de degrés de liberté.
C'est par exemple cette définition qui sera retenue :
* Pour calculer la distribution de la statistique d'ANOVA.
* Pour calculer la distribution de la statistique du test des modèles emboîtés en Régression Linéaire Multiple,
ainsi que dans le résultat portant sur la distribution du carré de la distance de Mahalanobis.
La distribution F de Fisher est liée à la distribution Beta.
Soit F une v.a. suivant la distribution de Fisher Fn ,m . Nous montrons ici que :
|
|
_________________________________________________________________
|
Tutoriel 1 |
Dans ce Tutoriel, nous établissons quelques propriétés de la distribution F de Fisher.
Densité de probabilité
* Nous avons déjà calculé cette densité en traitant des propriétés générales de la distribution du rapport de deux variables aléatoires.
* Mais dans ce Tutoriel-ci, nous choisissons une autre approche, moins souvent utilisée bien que tout aussi commode et efficace. Nous calculons dans un premier temps la fonction de répartition de la distribution F, qui apparaîtra sous une forme intégrale que nous n'aurons alors qu'à différencier pour obtenir la fonction de densité de probabilité.
Nous utilisons ici
cette même approche pour calculer la fdp de la distribution t de Student.
Premiers moments
La moyenne et la variance de la distribution F de Fisher peuvent se calculer par la méthode directe, mais l'aspect peu engageant de sa fonction de densité nous incite à repousser cette approche au Tutoriel suivant.
Nous allons ici utiliser une méthode indirecte, mais qui s'avèrera plus simple. Nous considérerons un moment de la distribution F comme étant l'espérance d'une fonction de deux v.a. Chi-2, puis ferons appel au théorème portant sur l'espérance d'une fonction de plusieurs variables aléatoires pour calculer cette espérance. Ceci nous permettra de trouver facilement les valeurs des moments d'ordre 1 (moyenne) et 2 de la distribution F, d'où nous déduirons ensuite sa variance.
Inverse d'une variable F
Nous montrerons enfin que l'inverse d'une v.a. distribuée comme Fn ,m suit la distribution Fm ,n.
PROPRIETES DE LA DISTRIBUTION F DE FISHER
|
Densité de probabilité de la distribution F de Fisher Densité de probabilité conjointe Fonction de répartition Densité de probabilité intermédiaire Prise en compte des degrés de liberté Mode Cas particuliers n = 1 Cas général Premiers moments de la distribution F de Fisher Moyenne Moment du second ordre Variance Distribution de l'inverse d'une variable F de Fisher |
||
|
TUTORIEL |
||
_____________________________________________________
|
Tutoriel 2 |
Nous abordons à nouveau la question du calcul de la moyenne et de la variance de la distribution F de Fisher, mais par une méthode très différente de celle utilisée dans le Tutoriel précédent. Le lecteur doit d'ailleurs être prévenu que le contenu de ce Tutoriel est exclusivement mathématique, et n'apporte aucune compréhension supplémentaire de la distribution F d'un point de vue statistique. Néanmoins, la démonstration est intéressante par elle-même, et mérite d'être présentée.
L'idée directrice est la suivante : en raison de la forme du numérateur de la fdp de la distribution F (une puissance de x), la fdp ainsi que tous ses moments ont des formes mathématiques très semblables. De fait, ces quantités appartiennent toutes à une même famille d'intégrales dont nous montrerons qu'elles vérifient deux relations de récurrence distinctes. Ces relations nous permettront de relier un moment au moment d'ordre immédiatement supérieur. La condition de normalisation d'une fdp conduira alors simplement au calcul de la moyenne, et celle-ci au calcul du moment d'ordre 2, d'où nous déduirons la variance.
Si nécessaire, la méthode peut être étendue aux ordres supérieurs.
PREMIERS MOMENTS DE LA DISTRIBUTION F DE FISHER
(Deuxième méthode)
|
Intégrale I(α, β) définissant les moments L'intégrale Première relation de récurrence Deuxième relation de récurrence Relation de récurrence finale Normalisation de la fdp Moyenne Moment du second ordre Variance |
||
|
TUTORIEL |
||
_____________________________________________________
Voir aussi :