Rang  (d'une observation)

Nous abordons ici les questions suivantes :

 Rang d'une observation

Pourquoi les rangs?

Corrélation des rangs

Tests non paramétriques basés sur les rangs

Ex-aequos

_____________________________________________

Rang d'une observation

            Soit x une variable numérique (ou quantitative). Dans un échantillon de taille n, les observations peuvent être triées par ordre croissant de leurs valeurs de x :

 

L'illustration ci-dessous représente un échantillon de 7 observations avec, pour chaque observation :

 

 

Le rang d'une observation est donc une version "réduite" de sa coordonnée x. En effet, les rangs ne représentent que les positions relatives des observations, et contiennent donc beaucoup moins d'information que les vraies valeurs de x. En particulier, la notion de distance (métrique) entre observations disparaît complètement.

Pourquoi les rangs ?

            Quel intérêt peut-il y avoir à utiliser une représentation apauvrie de la coordonnée d'une observation ? Il y a à cela deux raisons :

Variables ordinales

            Certaines situations ne se prêtent pas à une représentation des observations en termes de coordonnées numériques, alors que la notion de rang y apparaît naturellement. Par exemple :

 

Robustesse

            L'utilisation de rangs au lieu de valeurs numériques complètes n'est pas seulement une question de commodité occasionnelle. Elle a aussi des conséquences importantes et utiles car les rangs ne sont pas affectés par un changement d'échelle sur x, même si ce changement d'échelle n'est pas uniforme sur le domaine de x. En fait, les rangs ne changent pas (sont "invariants") sous toute transformation monotone de x.

La validité des tests paramétriques (p.ex. ANOVA, les tests t) repose de façon critique sur l'hypothèse de normalité des distributions. Des écarts même faibles à la normalité rendent ces tests hasardeux.

Il est parfois possible de concevoir des tests ayant les mêmes objectifs que des tests paramétriques en utilisant les rangs des observations plutôt que leur valeurs numériques. Ces tests ne reposent alors sur aucune hypothèse concernant les distributions sous-jacentes aux données, et sont donc robustes (voir ci-dessous ).

Corrélation des rangs

            La première utilisation des la notion de rang est l'extension de la notion de coefficient de corrélation aux variables ordinales. De même que le coefficient de corrélation (dit "de Pearson") de deux variables numériques est une mesure de similarité (linéaire) de ces variables, le coefficient de corrélation des rangs est une mesure de la similarité entre deux classements effectués sur un même groupe d'observations.

 

Un exemple classique est celui des "aptitudes corrélées". Existe-t-il un lien entre :

Une façon d'aborder cette question est de classer les étudiants d'un groupe par ordre croissant de leurs résultats dans ces deux disciplines, puis de détecter une "corrélation" entre ces classements.

---------

Il existe deux coefficients (concurrents)  permettant de quantifier la corrélation entre deux classements :

 

Ces deux coefficients sont égaux :

 

 En dehors de ces cas extrêmes, les valeurs du t  de Kendall ou du rS de Spearman ont peu de signification par elles-mêmes. Mais il est possible de construire des tests  concernant la possibilité que les valeurs de ces coefficients soient effectivement 0. L'échantillon est alors considéré comme extrait d'une population infinie, et ces tests portent sur les hypothèses nulles :

 

Ils sont utilisés quand se pose la question :

"Les données sont-elles compatibles avec l'hypothèse selon laquelle il n'existe aucun lien entre les deux variables ?".

Tests non paramétriques utilisant les rangs

            Comme nous l'avons mentionné, les tests paramétriques ne sont pas robustes en raison de leur dépendance envers des hypothèses de normalité. Certains tests paramétriques ont des contreparties non paramétriques basées sur l'utilisation des rangs. Voici quelques examples :

 

Paramétrique

 

Non paramétrique avec rangs

 

Test sur r = 0  (Pearson)

cats_next.gif

Test sur t = 0  (Kendall)
Test sur rS = 0  (Spearman)

 

Test t sur échantillons indépendants

cats_next.gif

Test de Wilcoxon-Mann-Whitney

ANOVA univariée

cats_next.gif

Test de Kruskal-Wallis

ANOVA multivariée

cats_next.gif

Test de Friedman

 

Rappel : ANOVA univariée est la généralisation du test t à plus de deux échantillons indépendants.

 

Les trois derniers tests sont des tests d'identité. Ils testent l'hypothèse nulle selon laquelle :

sont issus de la même population.

 

Pour la notion d'échantillons appariés, voir  ici.

 

Notez que beaucoup de tests non paramétriques ne sont pas basés sur la notion de rang. Par exemple, une alternative au test de Kruskal-Wallis est le test du Chi-2 à k échantillons indépendants, qui n'utilise pas la notion de rang.

Ex-aequos

            Une variable ordinale n'a habituellement qu'un petit nombre de valeurs ("Chaud", "Tiède", "Froid"). Le cas extrême est celui des variables binaires, qui n'ont que deux valeurs ("Homme", "Femme"). Il est alors presque impossible d'éviter que deux observations ou plus aient le même valeur pour la variable sur laquelle est calculé le rang. L'affectation de rangs aux observations devient alors une tâche ambiguë, et on dit que l'on a des ex-aequos.

 

Voici un example illustrant le concept d'ex-aequo. Une même tâche est assignée à chacun des membres d'un groupe qui contient des Hommes (H) et des Femmes (F). Quand un membre du groupe a terminé sa tâche, le résultat est évalué et donne lieu à une note (numérique). La question est : "L'ensemble des notes suggère-t-il qu'il existe une différence entre les Hommes et les Femmes en ce qui concerne l'accomplissement de cette tâche ?".


Les notes sont regroupées sans se préoccuper du sexe de la personne notée. Puis elles sont classées par ordre croissant, et les rangs sont assignés aux participants selon le schéma suivant :

 

Rang de la note

1

2

3

.....

n-1

n

Sexe

H

F

F

.....

H

F

 

On calcule alors un taux de corrélation entre ces deux classements (par exemple, le t de Kendall), puis on teste l'hypothèse H0 :   t  = 0.

Nous somme ici dans une situation avec de très nombreux ex aequos sur la deuxième variable. La gestion de ces ex aequos est assez délicate et peut parfois être abordée de plusieurs façons plus ou moins arbitraires. Les logiciels se chargent habituellement de cette gestion, mais l'analyste doit au moins être conscient de ce problème.

____________________________________________________________

 

Voir aussi

Test paramétrique

Test du Chi-2

Test de Wilcoxon-Mann-Whitney

Test de Kruskal-Wallis

Test de Friedman

Téléchargez ce Glossaire