Rang (d'une observation)
Nous abordons ici les questions suivantes :
|
_____________________________________________
Soit x une variable numérique (ou quantitative). Dans un échantillon de taille n, les observations peuvent être triées par ordre croissant de leurs valeurs de x :
L'illustration ci-dessous représente un échantillon de 7 observations avec, pour chaque observation :

Le rang d'une observation est donc une version "réduite" de sa coordonnée x. En effet, les rangs ne représentent que les positions relatives des observations, et contiennent donc beaucoup moins d'information que les vraies valeurs de x. En particulier, la notion de distance (métrique) entre observations disparaît complètement.
Quel intérêt peut-il y avoir à utiliser une représentation apauvrie de la coordonnée d'une observation ? Il y a à cela deux raisons :
Certaines situations ne se prêtent pas à une représentation des observations en termes de coordonnées numériques, alors que la notion de rang y apparaît naturellement. Par exemple :
Les variables ne traduisant qu'une relation d'ordre entre les observations sont dites "ordinales".
L'utilisation de rangs au lieu de valeurs numériques complètes n'est pas seulement une question de commodité occasionnelle. Elle a aussi des conséquences importantes et utiles car les rangs ne sont pas affectés par un changement d'échelle sur x, même si ce changement d'échelle n'est pas uniforme sur le domaine de x. En fait, les rangs ne changent pas (sont "invariants") sous toute transformation monotone de x.
La validité des tests paramétriques (p.ex. ANOVA, les tests t) repose de façon critique sur l'hypothèse de normalité des distributions. Des écarts même faibles à la normalité rendent ces tests hasardeux.
Il est parfois possible de concevoir des tests ayant
les mêmes objectifs que des tests paramétriques en utilisant les rangs des observations
plutôt que leur valeurs numériques. Ces tests ne reposent alors sur aucune hypothèse
concernant les distributions sous-jacentes aux données, et sont donc robustes
(voir ci-dessous
).
La première utilisation des la notion de rang est l'extension de la notion de coefficient de corrélation aux variables ordinales. De même que le coefficient de corrélation (dit "de Pearson") de deux variables numériques est une mesure de similarité (linéaire) de ces variables, le coefficient de corrélation des rangs est une mesure de la similarité entre deux classements effectués sur un même groupe d'observations.
Un exemple classique est celui des "aptitudes corrélées". Existe-t-il un lien entre :
Une façon d'aborder cette question est de classer les étudiants d'un groupe par ordre croissant de leurs résultats dans ces deux disciplines, puis de détecter une "corrélation" entre ces classements.
---------
Il existe deux coefficients (concurrents) permettant de quantifier la corrélation entre deux classements :
Ces deux coefficients sont égaux :
En dehors de ces cas extrêmes, les valeurs du t de Kendall ou du rS de Spearman ont peu de signification par elles-mêmes. Mais il est possible de construire des tests concernant la possibilité que les valeurs de ces coefficients soient effectivement 0. L'échantillon est alors considéré comme extrait d'une population infinie, et ces tests portent sur les hypothèses nulles :
ou
Ils sont utilisés quand se pose la question :
"Les données sont-elles compatibles avec l'hypothèse selon laquelle il n'existe aucun lien entre les deux variables ?".
Comme nous l'avons mentionné, les tests paramétriques ne sont pas robustes en raison de leur dépendance envers des hypothèses de normalité. Certains tests paramétriques ont des contreparties non paramétriques basées sur l'utilisation des rangs. Voici quelques examples :
|
Paramétrique |
|
Non paramétrique avec rangs |
|
|
Test sur r = 0 (Pearson) |
|
Test sur t =
0 (Kendall) |
|
|
Test t sur échantillons indépendants |
|
Test de Wilcoxon-Mann-Whitney |
|
|
ANOVA univariée |
|
Test de Kruskal-Wallis |
|
|
ANOVA multivariée |
|
Test de Friedman |
Rappel : ANOVA univariée est la généralisation du test t à plus de deux échantillons indépendants.
Les trois derniers tests sont des tests d'identité. Ils testent l'hypothèse nulle selon laquelle :
sont issus de la même population.
Pour la notion d'échantillons appariés, voir ici.
Notez que beaucoup de tests non paramétriques ne sont pas basés sur la notion de rang. Par exemple, une alternative au test de Kruskal-Wallis est le test du Chi-2 à k échantillons indépendants, qui n'utilise pas la notion de rang.
Une variable ordinale n'a habituellement qu'un petit nombre de valeurs ("Chaud", "Tiède", "Froid"). Le cas extrême est celui des variables binaires, qui n'ont que deux valeurs ("Homme", "Femme"). Il est alors presque impossible d'éviter que deux observations ou plus aient le même valeur pour la variable sur laquelle est calculé le rang. L'affectation de rangs aux observations devient alors une tâche ambiguë, et on dit que l'on a des ex-aequos.
Voici un example illustrant le concept d'ex-aequo. Une même tâche est assignée à chacun des membres d'un groupe qui contient des Hommes (H) et des Femmes (F). Quand un membre du groupe a terminé sa tâche, le résultat est évalué et donne lieu à une note (numérique). La question est : "L'ensemble des notes suggère-t-il qu'il existe une différence entre les Hommes et les Femmes en ce qui concerne l'accomplissement de cette tâche ?".
Les notes sont regroupées sans se préoccuper du sexe
de la personne notée. Puis elles sont classées par ordre croissant, et les rangs
sont assignés aux participants selon le schéma suivant :
|
Rang de la note |
1 |
2 |
3 |
..... |
n-1 |
n |
|
Sexe |
H |
F |
F |
..... |
H |
F |
On calcule alors un taux de corrélation entre ces deux classements (par exemple, le t de Kendall), puis on teste l'hypothèse H0 : t = 0.
Nous somme ici dans une situation avec de très nombreux ex aequos sur la deuxième variable. La gestion de ces ex aequos est assez délicate et peut parfois être abordée de plusieurs façons plus ou moins arbitraires. Les logiciels se chargent habituellement de cette gestion, mais l'analyste doit au moins être conscient de ce problème.
____________________________________________________________
Voir aussi
|