Contingence (Tableau de)
Une entreprise vend 5 produits dans 4 régions. A la
fin de chaque exercice, ses ventes, exprimées par exemple en milliers d'unités,
peuvent se résumer dans un tableau comme celui-ci :
|
|
P1 |
P2 |
P3 |
P4 |
P5 |
|
R1 |
28 |
14 |
45 |
33 |
12 |
|
R2 |
36 |
21 |
25 |
64 |
23 |
|
R3 |
21 |
64 |
38 |
11 |
7 |
|
R4 |
79 |
42 |
67 |
9 |
41 |
Un tel tableau est appelé "Tableau de
Contingence". Tout tableau rectangulaire de nombres n'est pas un tableau
de contingence : il faut pour cela que les nombres dans les cellules soient
le résultat d'un décompte, de façon à ce que additionner les contenus des cellules
d'une ligne ou d'une colonne ait un sens.
Les tableaux de contingence ont une grande importance pratique. Ils sont le point de départ de l'analyse des interactions entre deux variables nominales. Dans l'exemple ci-dessus, nous avons deux telles variables :
* "Région", qui a 4 modalités,
* "Produit", qui a 5 modalités.
Ici, "interactions" veut dire "écart à la condition d'indépendance". Quel sens faut-il attribuer à une phrase comme :
Les deux variables "Région" et "Produit" sont indépendantes ?
Ceci voudrait dire que deux régions quelconques vendent tous les produits exactement dans les mêmes proportions. Par exemple, nous voyons que la Région R1 vend deux fois plus de produits P1 (28) que de produits P2 (14). Si "Région" et "Produit" étaient indépendants, nous nous attendrions à ce qu'il en soit de même pour la région R2. Mais nous constatons que R2 a vendu 36 P1 et 21 P2, et non les 36/2 = 18 attendus. Un simple examen visuel nous montre donc que "Région" et "Produit" ne sont pas indépendantes.
De façon complètement équivalente, nous aurions pu examiner les colonnes au lieu des lignes. Nous aurions alors dit que les deux variables sont indépendantes si deux produits quelconques sont vendus exactement dans les mêmes proportions dans toutes les régions. Les deux définitions sont équivalentes.
L'analyse des écarts à l'indépendence a des implications importantes. Ainsi, nous avons vu que la région R2 avait vendu proportionnellement plus de produit P2 que la région R1. Pourquoi ? Quelles sont les caractéristiques de R2 qui la rendent particulièrement réceptive à P2 ? Cette réceptivité pourrait-elle étendue à d'autres régions grâce à des efforts promotionnels appropriés ?
L'examen visuel d'un tableau de contingence atteint rapidement ses limites, et l'analyse de tableaux de grandes dimensions requiert des méthodes spécifiques. Mentionnons trois méthodes classiques d'analyse de tableaux de contingence :
1) Test du Khi-deux
Nous avons remarqué que R2 avait vendu proportionnellement plus de P2 que R1 ne l'avait fait. Mais cette conclusion n'est-elle pas hâtive ? Après tout, "21" n'est pas tellement supérieur à "18". Cette petite différence ne serait-elle pas simplement imputable aux fluctuations naturelles de la vie normale de l'entreprise ? Plus généralement, comment être sûr que les deux variables ne sont pas indépendantes, puisque nous ne pouvons pas complètement faire confiance aux chiffres ?
Ce genre de question appelle clairement un test. Dans le vocabulaire standard des test, l'hypothèse nulle H0 est : "Les deux variables sont indépendantes". Le "test du Chi-2 d'indépendance" va construire une quantité :
* égale à "0" quand les nombres du tableau correspondent parfaitement à ce que l'on attendrait en cas d'indépendence des deux variables,
* positive autrement,
* et qui devient de plus en plus grande au fur et à mesure que la distribution observée s'écarte de la distribution idéale en cas d'indépendance.
Le test calculera alors la probabilité pour que cette quantité soit encore plus grande que celle effectivement observée si les deux variables sont effectivement indépendantes. Une faible valeur de cette probabilité (p. ex. 0,005) plaide en faveur de l'existence d'un lien entre ces variables, et donc est un quasi-démenti à l'hypothèse d'indépendance.
2) L'Analyse Factorielle des Correspondances
Voir ici.
3) Modèles "Loglinéaires"
Les modèles dits "loglinéaires" décomposent un tableau de contingence en isolant plusieurs types contributions aux cellules du tableau.
* Une partie constante,
* Une contribution due à la seule première variable,
* Une contribution due à la seule deuxième variable,
* Et, par différence, la dernière partie qui, par définition même, est due à l' "interaction" entre les deux variables. Cette partie est nulle quand les deux variables sont indépendantes.
Dans la pratique, les modèles loglinéaires sont surtout utilisés sur des tableaux de contingence généralisés à plus de deux variables. Notons qu'ils peuvent également être utilisés pour analyser les interactions de variables continues.