Exponentielle  (Famille)

Beaucoup de distributions classiques p(x; θ), apparemment très différentes, voient leurs fonctions de densité de probabilité (distributions continues) ou leurs fonctions de masse (distributions discrètes) partager une structure mathématique commune, décrite ci-dessous, et connue collectivement sous le nom de famille exponentielle.

De plus, cette structure garantit aux distributions appartenant à une famille exponentielle d'avoir de "bonnes" propriétés :

    * Existence d'une statistique complète (et donc également exhaustive minimale) pour le paramètre θ (scalaire ou vectoriel).

    * Existence d'un estimateur efficace pour une fonction du paramètre θ (rappelons que pour toute distribution, il existe au plus une fonction du paramètre ayant un estimateur efficace).

L'ensemble des familles exponentielles peut donc être perçu comme constituant le coeur de l'ensemble des distributions, et dans lequel on retrouve les distributions les plus "régulières" d'un point de vue statistique. De fait, presque toutes les distributions usuelles (à l'exception notable de la distribution uniforme) appartiennent à une famille exponentielle.

Définition d'une famille exponentielle

Forme générale

Soit p(x; θ) une famille de distributions de probabilité, où θ est un paramètre que pour le moment nous supposerons scalaire. Elle sera dite constituer une

famille exponentielle si elle peut être mise sous la forme :

p(x; θ) = exp[A(x)B(θ) + C(x) + D(θ)]

 

    * La distribution peut être continue ou discrète.

    * Le domaine de x sur lequel p(x; θ) est différente de 0 ne doit pas dépendre du paramètre θ (ce qui exclut en particulier la distribution uniforme).

-----

Prenons comme exemple la distribution de Bernoulli b(π). Sa fonction de masse est :

p(x; π) = πx(1 - π)1 - x            x = 0, 1.

qui s'écrit

p(x; π) = exp[x.logπ + (1 - x).log(1 - π)] = exp[x.logπ + log(1 - π) - x.log(1 - π)]

soit

p(x; π) = exp[x.log(π/(1 - π)) + 0 + log(1 - π)]

Par identification, nous avons :

    * A(x) = x

    * B(π) = log(π/(1 - π))

    * C(x) = 0

    * D(π) = log(1 - π)

et les distributions de Bernoulli forment donc bien une famille exponentielle.

Forme canonique

En fait, une famille exponentielle n'est presque jamais utilisée sous la forme générale. Il est le plus souvent plus pratique de considérer que le paramètre est non pas θ mais plutôt B(θ) = η, qui s'appelle alors le paramètre naturel (ou parfois "paramètre canonique"). Nous avons alors :

p(x; η) = exp[A(x).η + C(x) + D(η)]

η est une fonction de θ. Bien entendu, la fonction D n'est plus la même que dans la forme générale.

Ainsi, dans le cas de la distribution de Bernoulli, si nous définissons

η = log(π/(1 - π))

alors π = eη/(1 + eη) et log(1 - π) = - log(1 + eη). La fonction de masse s'écrit alors sous la forme canonique

p(x; η)= exp[x.η + 0 - log(1 + eη)]

et donc D(η) = - log(1 + eη).

-----

Selon les auteurs et les contextes, la forme canonique peut s'écrire de diverses façons équivalentes, dont les plus courantes sont

p(x; η) = g(η).exp[A(x).η].h(x)

et

p(x; η) = exp[A(x).η - B(η) ].h(x)

Origines de la famille exponentielle

La plupart des distributions classiques peuvent être effectivement mises sous la forme exponentielle générale, mais ceci ne suffit pas à justifier l'importance de cette expression quelque peu artificielle.

En fait, la notion de "famille exponentielle" a deux origines différentes mais convergentes, que nous décrivons maintenant (dans le cas d'un paramètre scalaire).

Statistique exhaustive et famille exponentielle   (Théorème de Darmois)

Les caractérisations d'une statistique exhaustive que nous avons établies portaient sur des propriétés de la vraisemblance de l'échantillon, ou sur la relation entre la vraisemblance et la distribution p(x; θ), mais ne portaient pas directement sur la distribution p(x; θ) elle-même. Il paraît pourtant clair que l'existence d'une statistique exhaustive pour θ doit poser des contraintes sur la forme mathématique de p(x; θ).

En recherchant quelles propriétés doit avoir p(x; θ) pour que le paramètre θ admette une statistique exhaustive, nous montrerons qu'une condition nécessaire et suffisante d'existence d'une telle statistique est que p(x; θ) puisse être mise sous la forme ci-dessus, et constitue donc une famille exponentielle.

En fait, nous pourrons aller plus loin et identifier une de ces statistiques exhaustives. Nous montrerons que :

 

T = Σi A(xi)

 

dite statistique canonique :

    1) Est exhaustive pour θ dans la forme générale,

    2) Est exhaustive pour η dans la forme canonique.

 

Ce résultat est parfois connu dans la littérature francophone sous le nom de "Théorème de Darmois".

-----

On peut montrer de plus que T est non seulement exhaustive, mais également exhaustive minimale (difficile) et complète (très difficile).

Borne de Cramér-Rao et famille exponentielle

Rappelons que l'inégalité de Cramér-Rao établit une borne inférieure à la variance d'un estimateur sans biais d'une fonction g(θ) du paramètre θ, mais ne dit rien sur le fait qu'il existe ou non un estimateur dont la variance soit égale à cette borne (estimateur efficace).

Nous montrerons qu'une condition nécessaire et suffisante à l'existence d'une fonction g(θ) qui puisse être estimée efficacement est que la famille p(x; θ) soit une famille exponentielle. Dans la forme générale

p(x; θ) = exp[A(x)B(θ) + C(x) + D(θ)]

cette unique fonction est :

 

 

où " ' " représente la dérivation par rapport à θ.

Si g(.) est la fonction identité, alors θ admet un estimateur efficace; sinon, on peut affirmer que θ  n'a pas d'estimateur efficace.

-----

De plus, nous montrerons que l'estimateur efficace de g(θ) est 1/n.Σi A(xi) = 1/n.T, où T est la statistique canonique dont nous avons affirmé au paragraphe précédent qu'elle était exhaustive pour θ.


Ce résultat impose en fait des conditions de régularité sur p(x; θ) plus fortes que celles requises pour l'établissement de l'inégalité de Cramér-Rao, et que nous ne développerons pas. Retenons seulement que si ces conditions sont relaxées, il existe des distributions n'appartenant pas à la famille exponentielle, et pour lesquelles il existe un estimateur sans biais efficace d'une fonction g(θ).

_______________________________

Nous voyons donc que, sous certaines conditions de régularité que nous ne détaillerons pas mais qui sont satisfaites par toutes les distributions usuelles (à l'exception de la distribution uniforme), nous avons le schéma d'équivalence suivant :

 

Statistique exhaustive pour θ

FAMILLE EXPONENTIELLE

Estimateur efficace pour une g(θ)

 

qui nous permet d'affirmer qu'une famille de distributions p(x; θ) admet une fonction g(θ) du paramètre θ qui peut être estimée efficacement si et seulement si elle admet une statistique exhaustive pour θ. De plus, nous sommes maintenant capables d'identifier explicitement cette fonction ainsi que son estimateur efficace en mettant la famille sous sa forme exponentielle.

Paramètre vectoriel

Beaucoup de distributions classiques ne dépendent pas que d'un seul paramètre scalaire, mais de plusieurs paramètres scalaires regroupés dans un paramètre vectoriel. Par exemple, la distribution normale N(µ, σ²) dépend du paramètre vectoriel θ = (µ, σ²).

La forme canonique devient alors, par définition :

 

p(x; η) = exp[Σi Ai(x).ηi + C(x) + D(η)]

 

avec pour statistique canonique (multidimensionnelle) :

T = {ΣA1(xj), Σj A2(xj), ..., Σj Ak(xj)}

k est la dimension du paramètre vectoriel η = {η1, η2 , ..., ηk}.

Ainsi la représentation canonique de la famille N(µ, σ²) est

dont le paramètre naturel est η = {η1, η2} avec η1 = µ/σ² et η2 = -1/2σ².

Espace des paramètres naturels

Toutes les distributions d'une famille exponentielle peuvent s'écrire sous la forme canonique

p(x; η) = exp[Σi Ai(x).ηi + C(x) + D(η)]

mais ce n'est pas pour autant que l'expression ci-dessus représente une distribution de probabilité pour toutes les valeurs possibles de η = {η1, η2 , ..., ηk}. Il faut pour celà que l'intégrale sur x de p(x; η) (ou la somme dans le cas discret) soit égale à 1 (normalisation).

On montre que l'ensemble des valeurs de η = {η1, η2 , ..., ηk} pour lesquelles p(x; η) = exp[Σi Ai(x).ηi + C(x) + D(η)] est bien une distribution de probabilité est convexe : si η et η' sont deux valeurs admissibles du paramètre naturel, alors pour tout λ, avec 0 < λ < 1 :

η'' = λη  + (1 - λ)η'

est également une valeur admissible de ce paramètre.

Famille régulière

            Non identifiabilité des paramètres, représentation minimale

En raison de la nature linéaire de l'expression Σi Ai(x).ηi, deux difficultés peuvent se présenter :

    1) Les Ai(x) peuvent être reliés par une ou plusieurs relations linéaires. Dans ce cas, plusieurs valeurs du paramètre η conduisent à la même distribution

p(x; η). Le paramètre η perd alors toute signification statistique, et est qualifié de non identifiable. Cette situation est similaire à celle rencontrée en Régression Linéaire Multiple lorsque plusieurs régresseurs forment un système linéairement lié (colinéarité) : les coefficients de la régression ne peuvent alors plus être identifiés.

Il convient alors de transformer les k expressions Ai(x) en k' < k expressions A'i(x) linéairement indépendantes. On crée ainsi un nouveau paramètre naturel η' identifiable de dimension k'.

    2) Les ηi peuvent être reliés par une ou plusieurs relations linéaires, et η est alors à nouveau non identifiable. L'espace des paramètres naturels est alors un ensemble convexe d'un sous-espace linéaire de dimension k' < k de l'espace de toutes les valeurs de η. Cette situation est similaire à celle d'une distribution normale multivariée dégénérée, c'est à dire dont la matrice de covariance n'est pas strictement définie positive et qui est donc incluse dans un sous-espace linéaire de l'espace complet.

Là encore, il convient de rétablir l'identifiabilité de η en calculant k' combinaisons linéaires indépendantes des ηi (les k expressions Ai(x) étant alors remplacées par k' expressions A'i(x)).

-----

Lorsqu'il n'existe aucune relation linéaire entre les paramètres ηi, ni entre les Ai(x), on dit que la représentation de la famille exponentielle est minimale.

            Famille courbe

Même lorsqu'il n'existe pas de relation linéaire entre les composantes du paramètre η, il peut exister des relations non linéaires entre ces composantes. L'exemple le plus classique est celui de la famille des distributions normales N(µ, µ²) dont la variance augmente comme le carré de la moyenne. Il est clair que cette famille ne dépend en fait que d'un seul paramètre. On dit que l'on est en présence d'une famille courbe, et dans l'exemple cité, l'espace de l'unique paramètre naturel est la parabole y = x² dont la dimension intrinsèque est 1 dans le plan de dimension 2 sous-tendu par (µ, σ²).

Ce genre de situation est évitée automatiquement si l'on impose à l'espace des paramètres naturels de contenir un hypercube dont la dimension soit égale (càd non inférieure) à la dimension du paramètre η.

            Famille régulière

Lorsqu'une famille exponentielle admet une représentation minimale, et que l'espace des paramètres naturels contient un hypercube dont la dimension est égale à la dimension du paramètre η, on dit que la famille est régulière.

Alors on montre que la statistique k-dimensionnelle

T = {ΣA1(xj), Σj A2(xj), ..., Σj Ak(xj)}

est non seulement exhaustive minimale mais également complète pour η (la complétude n'étant pas garantie pour une famille courbe). Cet important résultat est difficile, et n'est pas démontré dans ce Glossaire.

__________________

Par exemple, dans le cas de la distribution normale, il est clair que :

    1) Il n'existe pas de relation linéaire entre η1 = µ/σ² et η2 = -1/2σ².

    2) Il n'existe pas de relation linéaire entre A1(x) = x et A2(x) = x².

Par ailleurs, l'espace des paramètres naturels est [-∞, +∞]x[-∞, 0] qui contient un carré de dimension 2.

La famille N(µ, σ²) est donc régulière.

On retrouve alors que (Σi Xi, Σi Xi²) est exhaustive minimale et complète pour (µ/σ², -1/2σ²), et donc pour (µ, σ²) qui est en relation bijective avec

(µ/σ², -1/2σ²).

Famille exponentielle naturelle

Définition de la famille exponentielle naturelle

Dans la pratique, beaucoup de distributions classiques peuvent s'écrire sous une forme restrictive qui définit une sous-classe de la famille exponentielle canonique. Cette forme est :

 

p(x; θ, Φ) = exp{( - b(θ))/Φ + c(x, Φ)}

 

Elle définit la classe des familles exponentielles naturelles.

    * Nous verrons que le paramètre θ de la forme naturelle n'est en général pas le même que le paramètre θ de la forme canonique.

    * Par ailleurs est mis en évidence un paramètre Φ, en général connu, dont nous verrons qu'il caractérise l'étendue de la distribution. Pour cette raison, il s'appelle le paramètre de dispersion de la distribution.

    * c(x, Φ) est un terme "fourre-tout" qui ne joue pas un rôle important, et à qui on ne demande que de ne pas dépendre de θ.

Moyenne et variance de la famille exponentielle naturelle

La simplification apportée par la famille exponentielle naturelle permet de calculer la moyenne et la variance d'une distribution de cette famille par des voies (d'ailleurs assez détournées) que nous emprunterons dans le Tutoriel ci-dessous. Nous montrerons que si µ et σ² désignent respectivement la moyenne et la variance de la distribution, alors :

 

            * Moyenne :

Nous montrerons que :

µ = b'(θ)

 

où " ' " désigne la dérivation par rapport à θ.

On impose à la définition de la famille exponentielle naturelle que b'(θ) soit une fonction inversible (monotone). Le paramètre θ peut alors s'exprimer comme une fonction de µ :

θ = b'-1(µ) = τ(µ)

et une distirbution de la famille exponentielle naturelle est souvent représentée dans cette paramétrisation.

 

            * Variance :

Nous montrerons que :

σ² = Φ.b''(θ)

 

Cette dernière expression justifie le nom de "paramètre de dispersion" donné à Φ.

Fonction de variance

L'expression de la variance montre que, à l'intérieur d'une famille exponentielle naturelle, la variance est fonction de la moyenne :

σ² = Φ.µ' = V(µ)

 

La fonction V s'appelle la  fonction de variance de la distribution.

On montre que, sous des conditions de régularité assez peu contraignantes, la fonction de variance caractérise la forme d'une distribution lorsque l'on sait qu'elle appartient à la famille exponentielle naturelle.

________________________________________________________

 

 

 

Tutoriel 1

 

Dans ce Tutoriel, nous exposons les deux origines de la famille exponentielle dans le cas d'un paramètre scalaire.

 

    * Statistique exhaustive :

        - Une condition nécessaire et suffisante pour qu'une distribution p(x; θ) admette une statistique exhaustive pour le paramètre θ est qu'elle appartienne à la famille exponentielle.

        - Nous identifierons alors une statistique exhaustive particulière de θ.

-----

La démonstration n'est donnée que dans le cas où le paramètre θ est scalaire, et où la distribution p(x; θ) est une distribution à densité.

 

    * Borne de Cramér-Rao

Une condition nécessaire et suffisante (à quelques réserves près) pour qu'il existe une fonction g(θ) admettant un estimateur efficace est que p(x, θ) appartienne à la famille exponentielle.

Nous identifierons cet estimateur efficace, ainsi que l'unique fonction g(θ) estimée efficacement. Si cette fonction n'est pas la fonction "identité", alors le paramètre θ n'admet pas d'estimateur efficace.

____________

 

    * Famille exponentielle naturelle

Nous montrons ensuite que la moyenne et la variance d'une distribution appartenant à la famille exponentielle naturelle peuvent être calculées par des méthodes simples et élégantes, bien que très indirectes.

 

 

 

FAMILLE EXPONENTIELLE ET STATISTIQUE EXHAUSTIVE

FAMILLE EXPONENTIELLE ET BORNE DE CRAMER-RAO

FAMILLE EXPONENTIELLE NATURELLE

Famille exponentielle et Statistique exhaustive

La condition est nécessaire

La condition est suffisante

Une statistique exhaustive particulière

Famille exponentielle et borne de Cramér-Rao

La condition est nécessaire

La condition est suffisante

Score et famille exponentielle

Score et estimateur efficace

L'estimateur efficace et la quantité estimée

Famille exponentielle naturelle

Moyenne

Variance

Fonction de variance

TUTORIEL

__________________________________________________

 

 

Tutoriel 2

 

Nous passons en revue un certain nombre de distributions classiques dont il s'avère qu'elles forment des familles exponentielles. Pour chacune de ces familles, nous identifions :

    * Sa forme générale, dont nous déduisons :

        - Une statistique complète pour le paramètre (scalaire ou vectoriel),

        - Une fonction g(θ) du paramètre estimée efficacement par cette statistique (cas scalaire uniquement). Le plus souvent, cette fonction est facilement interprétable, mais nous verrons par exemple que la fonction g(α) de la famille exponentielle engendrée par le paramètre de forme α de la distribution Gamma Γ(α, β) lorsque le paramètre de dispersion β est maintenu constant défie l'interprétation. Nous ferons la même constatation déconcertante pour les deux familles engendrées par la distribution Beta(α, β) lorsque l'un ou l'autre de ses paramètres est maintenu contant.

    * Nous reproduisons le même schéma pour la forme canonique, la plus utilisée en pratique.

    * Nous verrons que beaucoup des familles étudiées peuvent se mettre sous la forme naturelle, mais pas toutes. Par exemple, les trois distributions évoquées ci-dessus ne peuvent pas se mettre sous la forme naturelle.

Nous retrouverons la moyenne et la variance de chacune des distributions admettant une forme naturelle, ainsi que sa fonction de variance, qui caractérise la distribution dans l'ensemble des familles exponentielles naturelles.

    * Nous constaterons enfin que, bien que la distribution normale N(µ, σ²) forme une famille exponentielle à deux paramètres scalaires, il n'en est pas de même de la sous-famille N(µ, σ²) obtenue en maintenant la moyenne µ constante, alors que la sous-famille obtenue en maintenant la variance σ² constante est elle exponentielle.

Par contre, chacune des deux sous-familles obtenues en maintenant constant l'un quelconque des deux paramètres naturels η1 ou η2 est une famille exponentielle.

________________

Rappelons que :

    * Les distributions exponentielle et du Chi-2 ne sont que des cas particuliers de la distribution Gamma.

    * La distribution de Bernoulli n'est qu'un cas particulier de la distribution binomiale.

    * La distribution géométrique n'est qu'un cas particulier de la distribution binomiale négative.

 

 

 

EXEMPLES DE FAMILLES EXPONENTIELLES

Distribution binomiale

Distribution binomiale négative

Distribution de Poisson

Distribution Gamma

Distribution Beta

Distribution normale

TUTORIEL

 

______________________________________________________

 

Voir aussi:

Statistique exhaustive

Inégalité de Cramér-Rao

Téléchargez ce Glossaire