Animation interactive

Confiance  (Intervalle de)

Nous vous suggérons de lire dans un premier temps l'entrée "Estimation par Intervalle".

-----

Rappel sur l'estimation par intervalle

Soit E = (x1, ..., xn)  un échantillon issu d'une distribution inconnue. Soit q un paramètre de cette distribution, et q* une estimation de la valeur de ce paramètre. Il est parfois possible de "coiffer" cette estimation par un segment tel qu'il soit possible d'affirmer que ce segment recouvre la vraie valeur q0 (inconnue)  du paramètre avec une probabilité P.

Ce segment s'appelle un intervalle de confiance associé à l'estimation q*. Ses extrémités sont des variables aléatoires qui ne dépendent que de l'échantillon (donc des "statistiques").

La longueur de l'intervalle de confiance est donc une mesure de l'incertitude sur la position réelle de la vraie valeur q0 du paramètre estimé.

Niveau de confiance

La probabilité P, arbitrairement choisie par l'analyste, est notée (1 - a), et s'appelle le niveau de confiance de l'intervalle de confiance. Les valeurs le plus souvent choisies pour a sont 0,05 et 0,01, correspondant aux niveaux de confiance 95% et 99%.

Ainsi, si l'on choisit a = 0,05, l'intervalle de confiance correspondant a une probabilité égale à 0,95 de contenir la vraie valeur q0 du paramètres estimé.

-----

Pour un échantillon donné, la taille de l'intervalle de confiance dépend du niveau de confiance choisi.

 

 

Taille d'échantillon

Pour un niveau de confiance donné, les extrémités de l'intervalle de confiance dépendent de la taille de l'échantillon (voir Tutoriels ci-dessous) : plus grand est l'échantillon, plus petit est l'intervalle de confiance. Ceci n'est pas surprenant : plus grand est l'échantillon, et plus nous disposons d'information sur la distribution, et donc sur le paramètre q, et plus petite est l'incertitude sur sa vraie valeur q0.

Pour un échantillon de taille donnée, l'analyste ne dispose que du compromis entre niveau de confiance et longueur de l'intervalle de confiance. S'il impose un plus grand niveau de confiance, l'intervalle de confiance s'agrandit : le seul moyen d'augmenter la probabilité de la présence de q0 dans l'intervalle est alors d'agrandir celui-ci.

 

Mais si les observations peuvent être collectées avec un coût raisonnable, il est possible de :

et de déterminer alors la taille minimale de l'échantillon permettant de satisfaire ces deux contraintes.

 

Cette question est traitée dans le premier Tutoriel ci-dessous.

Intervalle de longueur minimale

Pour un niveau de confiance donné, il existe en général une infinité d'intervalles de confiance ayant ce niveau de confiance (image inférieure de l'illustration ci-dessous).

 

 

Lequel choisir ?

Le choix le plus utile est celui de l'intervalle le plus court car c'est lui qui localise le mieux la vraie valeur q0 du paramètre (au niveau de confiance choisi).

Pour les pivots classiques (distributions normale standard ou en t), on montre que les intervalles les plus courts sont symétriques par rapport à la valeur estimée, ce qui justifie l'utilisation systématique de ces intervalles.

Pivots asymétriques

Un pivot n'est pas obligatoirement symétrique. Par exemple, le pivot relatif à la variance d'un échantillon issu d'une distribution normale est une variable , dont la distribution n'est pas symétrique. Il est alors d'usage de définir l'intervalle de confiance de façon "équilibrée", c'est à dire telle que chacun des deux demi-segments de part et d'autre de la valeur estimée du paramètre définisse une aire a/2 sour la courbe de distribution du pivot (semi-intervalles équiprobables). L'intervalle de confiance résultant est alors asymétrique (image inférieure de l'illustration ci-dessous).

 

 

Mais ces intervalles équilibrés n'ont aucune raison d'être les plus courts, et l'identification de l'intervalle le plus court ne peut être faite que par une recherche systématique par ordinateur.

Intervalles de confiance approximatifs

On connait peu d'intervalles de confiance exacts. On est donc souvent amené à rechercher des formules d'approximation donnant des intervalles de confiance non exacts, mais d'une précision acceptable en pratique. Il existe deux approches au calcul d'intervalles de confiance approximatifs :

Intervalles asymptotiques

            Même lorsqu'on ne connait pas d'intervalle de confiance exact, il est souvent possible de définir un intervalle de confiance asymptotique, c'est à dire

un intervalle approximatif, mais dont la précision augmente avec la taille de l'échantillon. Pour de très grands échantillons, un intervalle asymptotique est presque un intervalle de confiance exact.

Cette approche repose sur l'identification d'une quantité qui n'est pas un pivot pour des échantillons de taille finie, mais dont la distribution converge vers celle d'une authentique quantité pivotale (statistique dont la distribution ne dépend pas de la vraie valeur du paramètre estimé) lorsque la taille du ou des échantillon(s) tend vers l'infini.

C'est cette distribution limite qui est alors utilisée pour la construction de l'intervalle de confiance, même (et incorrectement) pour des échantillons finis.

Formules approximatives

            Pour des échantillons de taille modeste, un intervalle de confiance asymptotique peut être grossièrement faux. Une meilleure solution consiste alors à ne pas utiliser la distribution pivotale limite comme pivot, mais plutôt à trouver un vrai pivot dont la distribution soit une bonne approximation de celle de la statistique utilisée pour définir le pivot asymptotique du paragraphe précédent.

 L'exemple le plus classique de cette approche est l'approximation de Welch, qui est utilisée pour la construction d'intervalles de confiance approximatifs sur la différence des moyennes de deux distributions normales indépendantes de variances inconnues et différentes.

Nous traitons ci-dessous l'approximation de Welch.

Intervalles de confiance multiples

Il est parfois possible de définir non pas un intervalle de confiance pour un paramètre, mais une région bi-dimensionnelle de confiance relative à un couple de paramètres considérés sumultanément.

Par exemple, on peut déterminer une région de confiance pour le couple (m, s²) d'un échantillon issu d'une distribution normale N(µ, s²).

Paramètres d'un modèle

Une des applications principales de l'estimation par intervalle est le calcul d'intervalles de confiance pour les valeurs estimées des paramètres d'un modèle (voir par exemple ici).

Un grand intervalle de confiance sur la valeur estimée d'un paramètre est une indication de la grande incertitude qui entoure la valeur réelle de ce pramètre. Les deux causes principales d'une telle incertitude sont :

"Ruban" de confiance

Le concept d'intervalle de confiance peut être étendu à la modélisation : dans certains cas, il est possible d'associer un intervalle de confiance (pour un niveau de confiance donné) à chaque prédiction du modèle. Par exemple, en Régression Linéaire Simple, à chaque valeur de la variable explicative correspond :

    * Une prédiction de la valeur de la variable à expliquer, et

    * Un intervalle de confiance encadrant cette prédiction (pour un niveau de confiance imposé par l'utilisateur) .

 

Cette circonstance exceptionnellement favorable est due à la linéarité de modèle dans les paramètres, et aux hypothèses simplificatrices sur les erreurs de mesure. Dans le cas général, il n'est pas possible de trouver un intervalle de confiance exact pour les prédictions du modèle, mais il est parfois possible de trouver des intervalles de confiance approximatifs par linéarisation du modèle dans l'espace des paramètres.

Les extrémités de l'intervalle de confiance définissent alors un "ruban de confiance" (image inférieure de l'illustration ci-dessous). Les prédictions du modèle sont plus fiables dans les régions où le ruban est étroit que dans celles où il est large.

La densité locale des observations en un point joue un rôle prépondérant dans la largeur du ruban de confiance en ce point : l'incertitude sur les prédictions est en général plus importante dans les régions de faible densité que dans les régions de forte densité.

 

 

Cette notion se généralise lorsqu'il y a plusieurs variables explicatives, mais ne peut alors plus se représenter graphiquement.

Intervalles de Confiance et Tests

La disponibilité d'un intervalle de confiance pour l'estimation d'un paramètre conduit automatiquement à la construction d'un test sur la valeur de ce paramètre.

En effet, un intervalle de confiance se traduit par une formule du type :

Pr{a < q0 < b}= 1 - a

a et b sont les extrémités de l'intervalle.

Considérons maintenant l'hypothèse H0 : q = q0 que nous souhaitons tester au niveau de risque a.

Rappelons qu'un tel test repose sur l'identification d'une statistique S, qui prend sur l'échantillon la valeur S0, et telle que si H0 est vraie, on peut trouver un intervalle tel que :

Mais un intervalle de confiance au niveau de confiance a nous fournit tous les ingrédients du test :

Réciproquement, et par le même argument pris en sens inverse, l'existence d'un tests sur la valeur d'un paramètre d'une distribution conduit à la construction d'un intervalle de confiance sur la valeur estimée de ce paramètre.

 

Donc, il y a en fait équivalence entre "intervalle de confiance" et "test" lorsque la question porte sur la valeur d'un paramètre d'une distribution.

Pour autant, le domaine des tests dépasse largement celui des intervalles de confiance. Par exemple, un test de normalité, portant donc sur l'hypothèse :

 H0 : "L'échantillon est issu d'une distribution normale"

ne peut aucunement se réduire à la construction d'un intervalle de confiance.

_____________________________________________

Vous trouverez ici une animation interactive illustrant le concept d'intervalle de confiance.

_____________________________________________

Avertissement : les Tutoriels décrits ci-dessous sont les mêmes que ceux décrits à la page "Estimation par intervalle".

 

 

Tutoriel 1

 

Le Tutoriel suivant décrit les méthodes mises en œuvre dans le calcul d'intervalles de confiance exacts pour les moyennes de distributions normales. Nous abordons une seule fois la question de la taille minimale de l'échantillon pour atteindre un niveau de confiance donné pour une longueur donnée de l'intervalle de confiance. Cette question se retrouve à l'identique dans tous les problèmes d'intervalle de confiance.
 

INTERVALLES DE CONFIANCES EXACTS

POUR LES MOYENNES DE DISTRIBUTIONS NORMALES

Intervalle de confiance sur une moyenne

Variance connue

L'intervalle

Taille minimale de l'échantillon

Variance inconnue

Différence entre une moyenne et une valeur de référence

Comparaison de deux moyennes

Echantillons appariés

Echantillons indépendants

Variances connues

Variances inconnues mais égales

Variances inconnues et inégales : un échec

TUTORIEL

 __________________________________________________________

 

Tutoriel 2

 

Dans le cas le plus général (variances inconnues et inégales), on ne connait pas d'intervalle de confiance exact pour la différence des moyennes de deux distributions normales indépendantes. Mais il est possible de calculer deux types d'intervalles approximatifs :

INTERVALLE DE CONFIANCE ASYMPTOTIQUE

ET APPROXIMATION DE WELCH

Intervalle de confiance asymptotique (sans démonstration)

Approximation de Welch

TUTORIEL

 

 

La brièveté de cette table des matières est doublement trompeuse :

 

___________________________________

 

Voir aussi :

Estimation ponctuelle

Estimation par intervalle

La notion de "pivot"

Test

Téléchargez ce Glossaire