Echantillons indépendants ou appariés
Les descriptions des tests portant simultanément sur plusieurs échantillons font toujours référence au fait que ces échantillons sont:
* "Indépendants",
* Ou "Non indépendants" (on dit aussi "apariés").
Les significations de ces termes méritent d'être précisées.
_________________________
Plusieurs échantillons sont dits indépendants s'ils proviennent de tirages indépendants dans ou plusieurs populations.
Voici quelques façons d'obtenir des échantillons indépendants.
1) Si p(x) est une distribution de probabilité, on peut:
* Dans un premier temps tirer n1 observations de cette distribution pour consituer un premier échantillon S1.
* Puis dans un deuxième temps, tirer n2 observations de cette distribution pour constituer un second échantillon S2.
S1 et S2 sont alors des échantillon indépendants.
2) On peut également, dans un tableau croisant des observations avec des variables, retenir une variable nominale Y. On regroupera dans l'échantillon Si les observations possédant la modalité Mi de la variable Y. Les échantillons Si sont indépendants. Le test portera alors sur les valeurs prises, sur les observations de ces échantillons, par une autre variable X (par exemple numérique).
Le nombre d'observations dans l'échantillon Si est égal au nombre d'observations du tableau possédant la modalité Mi. Les échantillons Si peuvent donc contenir des nombres d'observations différents.
3) Soient plusieurs tableaux croisant des observations et des variables. Par exemple, chacun de ces tableaux pourrait décrire les caractéristiques morphologiques d'une race de chevaux particulière. Les tableaux n'ont pas besoin de contenir le même nombre d'observations, ou les mêmes variables. Supposons néanmoins que tous les tableaux comportent la variable "Hauteur au garrot".
La question "Ces races de chevaux ont-elles la même hauteur au garrot ?" sera traitée par un test d'identité (par exemple, ANOVA univariée), et les échantillons seront considérés comme indépendants.
Les tests faisant appel à la notion d' "échantillons indépendants" cherchent à mettre en évidence des différences globales entre ces échantillons, par exemple:
* Ces échantillons sont-ils issus de la même distribution ? (Test de Kolmogorov-Smirnov, test de Kruskal-Wallis)
* A supposer qu'ils soient issus de populations normales et de même variance, ces populations ont-elles également des moyennes identiques ? (test t de Student pour deux échantillons indépendants, ANOVA univariée pour plus de deux échantillons).
* A supposer que deux échantillons soient issus de populations normales mais de variances inégales, ces populations ont-elles des moyennes identiques (test d'Aspin-Welch).
* A supposer que deux échantillons indépendants soient issus de deux populations normales de même moyenne, ces deux populations sont-elles aussi de même variance ? (test F de Fisher)?
et de très nombreux autres.
_____________
Mais toutes les questions portant sur des groupes d'observations ne peuvent être abordés de cette manière. Nous décrivons maintenant la notion d' "échantillons non idépendants", ou "appariés".
2) Echantillons "Non indépendants", ou "appariés"
Supposons par example qu'une étude pharmacologique porte sur l'efficacité d'un nouveau médicament contre l'hypertension. On mesurera dans un premier temps la tension artérielle des patients d'un groupe d'essai (les "individus"), et les valeurs obtenues constitueront le premier échantillon S1.
Après administration du traitement, la tension artérielle des mêmes patients sera à nouveau contrôlée, et les valeurs correspondantes seront regroupées dans un second échantillon S2.
La question est, bien sûr: "Le traitement a-t-il fait baisser de manière significative la tension artérielle des patients ?". Il est important de comprendre que la question:
* N'est pas "Les valeurs dans S2 sont-elles globalement plus basses que celles dans S1 ?",
* Mais est "Si l'on soustrait, pour chaque patient, la valeur de sa tension après traitement de la valeur avant traitement, on obtient un ensemble de nombres, les chutes de tension individuelles. On espère que la grande majorité de ces nombres seront positifs. La question est alors: la moyenne de ces nombres est-elle significativement supérieure à 0 ?"".
Cette question est très différente de la suivante:
"La
moyenne de S2 est-elle plus faible que celle de S1 ?".
On
pourrait imaginer une situation dans laquelle on observe pour certains individus
une forte baisse de tension et pour d'autres une forte hausse, le résultat
global étant une baisse sensible de la moyenne sur le groupe de patients. Cette
situation est manifestement non satisfaisante pour le pharmacologue, et la détection
d'une baisse globale de la tension n'est donc pas un objectif intéressant.
Dans ce genre de situation, les échantillons ne sont plus considérés dans leur ensemble, comme c'était le cas lorsque la question était, par exemple: "Les deux échantillons ont-ils été tirés de la même population ?". Maintenant, à chaque individu dans un échantillon correspond un individu précis dans chacun des autres échantillons, et le test portera sur l'ensemble des variations de la grandeur mesurée pour un même individu entre les échantillons.
On dit alors que les échantillons sont appariés, ou non indépendants. Les tests sur les échantillons appariés cherchent à mettre en évidence les différences entre les effets des différentes conditions auxquelles sont soumis les individus. La partie active du test prend en compte non pas les valeurs brutes sur les observations, mais des valeurs obtenues par des opérations sur les valeurs prises la variable considérée sur les observations appariées.
On notera que des échantillons appariés comportent nécessairement
le même nombre d'observations.
Les échantillons appariés sont en général obtenus par l'une des deux procédures suivantes:
1) Un groupe de N individus est soumis successivement à k "traitements" différents. Le test a alors pour objet de détecter des différences dans les "efficacités" des traitements.
2) On constitue d'abord N groupes de k individus chacun. Chaque groupe est homogène, c'est à dire ne contient que des individus dont les attributs autres que celui soumis au test sont très semblables. Par exemple, dans un test pharmacologique, un groupe ne contiendra que des sujets ayant le même sexe, le même âge, les mêmes symptomes et le même historique médical.
* Puis dans chacun des N groupes, on choisit un individu au hasard, et on le soumet au traitement n°1.
* Dans chacun des N groupes, on choisit un individu au hasard (parmi les k-1 individus restant), et on le soumet au traitement n°2.
* etc...
L'échantillon n°i regroupe alors tous les individus ayant reçu le traitement n°i.
On remarquera que dans cette deuxième méthode, on ne compare
pas les valeurs d'une grandeur sur un même individu (soumis à des traitements
différents), mais sur des individus certes différents, mais aussi semblables
que possible. Il est souvent matériellement impossible de soumettre un
même individus à plusieurs "traitements" (p. ex. des éprouvettes métalliques
sur lesquelles on exerce une traction jusqu'à la rupture). Même lorsque cela
est possible, cela peut être dénué de sens (p. ex. tester sur un même étudiant
diverses techniques pédagogiques pour apprendre un même concept).
Il existe de nombreux problèmes portant sur des échantillons appariés, p. ex.:
* Soient plusieurs échantillons appariés. Sont-ils issus de populations identiques ? (test de Friedman).
* Soient deux échantillons appariés issus de populations normales et de même variance, ces populations ont-elles également des moyennes identiques ? (test t de Student pour deux échantillons appariés).
___________________________
Il faut bien comprendre que, étant donnés plusieurs groupes de nombres, la question de savoir s'ils sont ou non indépendants n'a en soi aucun sens. Ce qui donne un sens à la distinction entre "échantillons indépendants" et "échantillons appariés" est:
* La façon dont ces nombres ont été obtenus,
* et la nature de ce que le test cherche à mettre en évidence (différences globales ou différences individuelles ).