|
Animation interactive |
Confiance (Intervalle de)
Nous vous suggérons de lire dans un premier temps l'entrée "Estimation par Intervalle".
-----
Soit E = (x1, ..., xn) un échantillon issu d'une distribution inconnue. Soit q un paramètre de cette distribution, et q* une estimation de la valeur de ce paramètre. Il est parfois possible de "coiffer" cette estimation par un segment tel qu'il soit possible d'affirmer que ce segment recouvre la vraie valeur q0 (inconnue) du paramètre avec une probabilité P.
Ce segment s'appelle un intervalle de confiance associé à l'estimation q*. Ses extrémités sont des variables aléatoires qui ne dépendent que de l'échantillon (donc des "statistiques").
La longueur de l'intervalle de confiance est donc une mesure de l'incertitude sur la position réelle de la vraie valeur q0 du paramètre estimé.
La probabilité P, arbitrairement choisie par l'analyste, est notée (1 - a), et s'appelle le niveau de confiance de l'intervalle de confiance. Les valeurs le plus souvent choisies pour a sont 0,05 et 0,01, correspondant aux niveaux de confiance 95% et 99%.
Ainsi, si l'on choisit a = 0,05, l'intervalle de confiance correspondant a une probabilité égale à 0,95 de contenir la vraie valeur q0 du paramètres estimé.
-----
Pour un échantillon donné, la taille de l'intervalle de confiance dépend du niveau de confiance choisi.
Pour un niveau de confiance donné, les extrémités de l'intervalle de confiance dépendent de la taille de l'échantillon (voir Tutoriels ci-dessous) : plus grand est l'échantillon, plus petit est l'intervalle de confiance. Ceci n'est pas surprenant : plus grand est l'échantillon, et plus nous disposons d'information sur la distribution, et donc sur le paramètre q, et plus petite est l'incertitude sur sa vraie valeur q0.
Pour un échantillon de taille donnée, l'analyste ne dispose que du compromis entre niveau de confiance et longueur de l'intervalle de confiance. S'il impose un plus grand niveau de confiance, l'intervalle de confiance s'agrandit : le seul moyen d'augmenter la probabilité de la présence de q0 dans l'intervalle est alors d'agrandir celui-ci.
Mais si les observations peuvent être collectées avec un coût raisonnable, il est possible de :
Cette question est traitée dans le premier Tutoriel ci-dessous.
Pour un niveau de confiance donné, il existe en général une infinité d'intervalles de confiance ayant ce niveau de confiance (image inférieure de l'illustration ci-dessous).
Lequel choisir ?
Le choix le plus utile est celui de l'intervalle le plus court car c'est lui qui localise le mieux la vraie valeur q0 du paramètre (au niveau de confiance choisi).
Pour les pivots classiques (distributions normale standard ou en t), on montre que les intervalles les plus courts sont symétriques par rapport à la valeur estimée, ce qui justifie l'utilisation systématique de ces intervalles.
Pivots asymétriques
Un pivot n'est pas obligatoirement symétrique. Par
exemple, le pivot relatif à la variance d'un échantillon issu d'une distribution
normale est une variable
,
dont la distribution n'est pas symétrique. Il est alors d'usage de définir l'intervalle de confiance
de façon "équilibrée", c'est à dire telle que chacun des deux demi-segments de part et d'autre de la
valeur estimée du paramètre définisse une aire a/2
sour la courbe de distribution du pivot (semi-intervalles équiprobables).
L'intervalle de confiance résultant est alors asymétrique (image inférieure
de l'illustration ci-dessous).
Mais ces intervalles équilibrés n'ont aucune raison d'être les plus courts, et l'identification de l'intervalle le plus court ne peut être faite que par une recherche systématique par ordinateur.
On connait peu d'intervalles de confiance exacts. On est donc souvent amené à rechercher des formules d'approximation donnant des intervalles de confiance non exacts, mais d'une précision acceptable en pratique. Il existe deux approches au calcul d'intervalles de confiance approximatifs :
Même lorsqu'on ne connait pas d'intervalle de confiance exact, il est souvent possible de définir un intervalle de confiance asymptotique, c'est à dire
un intervalle approximatif, mais dont la précision augmente avec la taille de l'échantillon. Pour de très grands échantillons, un intervalle asymptotique est presque un intervalle de confiance exact.
Cette approche repose sur l'identification d'une quantité qui n'est pas un pivot pour des échantillons de taille finie, mais dont la distribution converge vers celle d'une authentique quantité pivotale (statistique dont la distribution ne dépend pas de la vraie valeur du paramètre estimé) lorsque la taille du ou des échantillon(s) tend vers l'infini.
C'est cette distribution limite qui est alors utilisée pour la construction de l'intervalle de confiance, même (et incorrectement) pour des échantillons finis.
Formules approximatives
Pour des échantillons de taille modeste, un intervalle de confiance asymptotique peut être grossièrement faux. Une meilleure solution consiste alors à ne pas utiliser la distribution pivotale limite comme pivot, mais plutôt à trouver un vrai pivot dont la distribution soit une bonne approximation de celle de la statistique utilisée pour définir le pivot asymptotique du paragraphe précédent.
L'exemple le plus classique de cette approche est l'approximation de Welch, qui est utilisée pour la construction d'intervalles de confiance approximatifs sur la différence des moyennes de deux distributions normales indépendantes de variances inconnues et différentes.
Nous traitons ci-dessous l'approximation de Welch.
Intervalles de confiance multiples
Il est parfois possible de définir non pas un intervalle de confiance pour un paramètre, mais une région bi-dimensionnelle de confiance relative à un couple de paramètres considérés sumultanément.
Par exemple, on peut déterminer une région de confiance pour le couple (m, s²) d'un échantillon issu d'une distribution normale N(µ, s²).
Une des applications principales de l'estimation par intervalle est le calcul d'intervalles de confiance pour les valeurs estimées des paramètres d'un modèle (voir par exemple ici).
Un grand intervalle de confiance sur la valeur estimée d'un paramètre est une indication de la grande incertitude qui entoure la valeur réelle de ce pramètre. Les deux causes principales d'une telle incertitude sont :
Le concept d'intervalle de confiance peut être étendu à la modélisation : dans certains cas, il est possible d'associer un intervalle de confiance (pour un niveau de confiance donné) à chaque prédiction du modèle. Par exemple, en Régression Linéaire Simple, à chaque valeur de la variable explicative correspond :
* Une prédiction de la valeur de la variable à expliquer, et
* Un intervalle de confiance encadrant
cette prédiction (pour un niveau de confiance imposé par l'utilisateur)
.
Cette circonstance exceptionnellement favorable est due à la linéarité de modèle dans les paramètres, et aux hypothèses simplificatrices sur les erreurs de mesure. Dans le cas général, il n'est pas possible de trouver un intervalle de confiance exact pour les prédictions du modèle, mais il est parfois possible de trouver des intervalles de confiance approximatifs par linéarisation du modèle dans l'espace des paramètres.
Les extrémités de l'intervalle de confiance définissent alors un "ruban de confiance" (image inférieure de l'illustration ci-dessous). Les prédictions du modèle sont plus fiables dans les régions où le ruban est étroit que dans celles où il est large.
La densité locale des observations en un point joue un rôle prépondérant dans la largeur du ruban de confiance en ce point : l'incertitude sur les prédictions est en général plus importante dans les régions de faible densité que dans les régions de forte densité.
Cette notion se généralise lorsqu'il
y a plusieurs variables explicatives, mais ne peut alors plus se représenter
graphiquement.
Intervalles de Confiance et Tests
La disponibilité d'un intervalle de confiance pour l'estimation d'un paramètre conduit automatiquement à la construction d'un test sur la valeur de ce paramètre.
En effet, un intervalle de confiance se traduit par une formule du type :
Pr{a < q0 < b}= 1 - a
où a et b sont les extrémités de l'intervalle.
Considérons maintenant l'hypothèse H0 : q = q0 que nous souhaitons tester au niveau de risque a.
Rappelons qu'un tel test repose sur l'identification d'une statistique S, qui prend sur l'échantillon la valeur S0, et telle que si H0 est vraie, on peut trouver un intervalle tel que :
Mais un intervalle de confiance au niveau de confiance a nous fournit tous les ingrédients du test :
Réciproquement, et par le même argument pris en sens inverse, l'existence d'un tests sur la valeur d'un paramètre d'une distribution conduit à la construction d'un intervalle de confiance sur la valeur estimée de ce paramètre.
Donc, il y a en fait équivalence entre "intervalle de confiance" et "test" lorsque la question porte sur la valeur d'un paramètre d'une distribution.
Pour autant, le domaine des tests dépasse largement celui des intervalles de confiance. Par exemple, un test de normalité, portant donc sur l'hypothèse :
H0 : "L'échantillon est issu d'une distribution normale"
ne peut aucunement se réduire à la construction d'un intervalle de confiance.
_____________________________________________
Vous trouverez ici une animation interactive illustrant le concept d'intervalle de confiance.
_____________________________________________
Avertissement : les Tutoriels décrits ci-dessous sont les mêmes que ceux décrits à la page "Estimation par intervalle".
|
Tutoriel 1 |
Le Tutoriel suivant décrit les méthodes mises
en œuvre dans le calcul d'intervalles de confiance exacts pour les moyennes
de distributions normales. Nous abordons une seule fois la question de la taille
minimale de l'échantillon pour atteindre un niveau de confiance donné pour une
longueur donnée de l'intervalle de confiance. Cette question se retrouve à
l'identique dans tous les problèmes d'intervalle de confiance.
INTERVALLES DE CONFIANCES EXACTS
POUR LES MOYENNES DE DISTRIBUTIONS NORMALES
|
Intervalle de confiance sur une moyenne Variance connue L'intervalle Taille minimale de l'échantillon Variance inconnue Différence entre une moyenne et une valeur de référence Comparaison de deux moyennes Echantillons appariés Echantillons indépendants Variances connues Variances inconnues mais égales Variances inconnues et inégales : un échec |
||
|
TUTORIEL |
||
__________________________________________________________
|
Tutoriel 2 |
Dans le cas le plus général (variances inconnues et inégales), on ne connait pas d'intervalle de confiance exact pour la différence des moyennes de deux distributions normales indépendantes. Mais il est possible de calculer deux types d'intervalles approximatifs :
INTERVALLE DE CONFIANCE ASYMPTOTIQUE
ET APPROXIMATION DE WELCH
|
Intervalle de confiance asymptotique (sans démonstration) Approximation de Welch |
||
|
TUTORIEL |
||
La brièveté de cette table des matières est doublement trompeuse :
___________________________________
Voir aussi :