Vraisemblance

Cette illustration montre un échantillon de n observations indépendantes, ainsi que deux distributions f1(x) et f2(x), où f2(x) est simplement f1(x) translatée d'une certaine quantité.

 

 

 

De ces deux distributions, de laquelle est-il le plus vraisemblable que l'échantillon soit issu ? La réponse est évidemment f1(x), et nous voulons formaliser cette intuition.

Bien que ce ne soit pas strictement impossible, il est peu vraisemblable que f2(x) ait engendré l'échantillon car toutes les observations sont dans des régions où les valeurs de f2(x) sont très petites : la probabilité pour qu'une observation apparaisse dans une telle région est très faible, et il est encore plus invraisemblable que toutes les observations apparaissent dans des régions de faible densité.

Par contre, les valeurs de f1(x) sont toujours raisonnablement élevées pour toutes les observations de l'échantillon, qui sont donc là où on s'attend à les trouver si c'est bien f1(x) qui les a engendrées.

Définition de la vraisemblance

Des diverses façons permettant de quantifier ce jugement intuitif, il en est une d'une remarquable efficacité. Pour toute densité de probabilité f(x), multiplions les valeurs prises par f(x) pour chacune des observations de l'échantillon, notons le résultat L et appelons ce résultat la vraisemblance de la distribution f(x) pour cet échantillon :

 

Vraisemblance = L =: Πi f(xi)           i = 1, 2, ..., n


 La notation "L" rappelle le terme anglais "Likelihood", et est universellement adoptée.

 Il est clair que la vraisemblance ne peut avoir une valeur appréciable que si toutes les observations sont dans des régions où f(x) ne prend pas de valeurs très petites. De plus, cette définition a l'avantage de donner à L une interprétation naturelle. L'échantillon {xi} peut être considéré comme une unique observation engendrée par la distribution multivariée

f(x1, x2, ..., xn) = Πi f(xi)

en raison de l'indépendance des observations individuelles. Ainsi, la valeur de la vraisemblance de la distribution est également la densité de probabilité de l'échantillon considéré comme une observation unique issue de la distribution multivariée ci-dessus.

Vraisemblance et estimation, maximum de vraisemblance

Ces considérations nous amènent à penser que la "vraisemblance" peut être un concept utile pour identifier la distribution ayant engendré un échantillon donné. Notons cependant, dans un premier temps, que cette approche est stérile si notre recherche n'est pas limitée a priori : la distribution de probabilité conduisant à la valeur maximale de la vraisemblance est obtenue en affectant la masse 1/n en chacun des points où il y a une observation, et en affectant la valeur 0 à tous les autres points de l'axe des x. Le résultat est alors trivial et inutile.

Mais considérons l'exemple décrit dans l'illustration ci-dessus : f1(x) et f2(x) sont supposées appartenir à une famille de distributions de formes identiques et ne différant que par leur position le long de l'axe des x. Il devient alors sensé de demander pour quelle position de la distribution générique f(x) la vraisemblance atteint sa valeur maximale. Si nous appelons θ le paramètre de réglage de cette position, on peut espérer que la valeur de θ conduisant à la plus grande valeur de la vraisemblance soit proche de la valeur vraie (et inconnue) θ0 du paramètre de la distribution ayant effectivement engendré l'échantillon.

Il apparaît ainsi que le concept de vraisemblance peut conduire à une méthode d'estimation. La méthode consiste à retenir comme estimation de θ0 la valeur de θ conduisant à la plus grande valeur possible de la vraisemblance. La méthode est donc naturellement appelée estimation par Maximum de Vraisemblance, qui est à ce jour la méthode d'estimation la plus utilisée.

Un estimateur θ* obtenu par maximisation de la vraisemblance d'une distribution connue sauf en ce qui concerne la valeur d'un paramètre θ est appelé estimateur par Maximum de Vraisemblance, et sera noté EMV.

Quand nous voudrons mettre l'accent sur le fait que la vraisemblance dépend à la fois de l'échantillon x = {xi} et du paramètre θ, nous l'écrirons L(x, θ).

-----

Nous avons illustré le concept de maximisation de la vraisemblance avec une distribution continue, mais le principe reste valide pour toute distribution, continue ou discrète.

Log-vraisemblance

La vraisemblance est définie comme un produit, et la maximisation d'un produit est généralement plus difficile que la maximisation d'une somme. Mais si une fonction L(θ) est transformée en une autre fonction L'(θ) par une transformation monotone croissante, alors L(θ) et L'(θ) atteindont leurs valeurs maximales pour la même valeur de θ. En particulier, si cette transformation monotone est logarithmique, la maximisation d'un produit devient la maximisation d'une somme.

Le logarighme de la vraisemblance s'appelle la log-vraisemblance, et sera notée log-L. Donc, par définition :  :

Log-vraisemblance = log-L = : Σi log(f(xi))              i = 1, 2, ..., n

et la vraisemblance et la log-vraisemblance atteignent leur extrema pour les mêmes valeurs de θ.

Maximisation de la vraisemblance

Le principe de l'estimation par Maximum de Vraisemblance est simple, mais sa mise en application rencontre certaines difficultés propres à tous les problèmes d'optimisation.

Identification des extrema

Les extrema d'une fonction différentiable L(θ) sont obtenus en résolvant l'equation

Comme nous venons de le montrer, L(θ) peut être remplacé par logL(θ).

L'approche la plus naturelle de la maximisation d'une vraisemblance différentiable consiste donc à résoudre, dans un premier temps, cette équation. Cependant, ceci est loin d'épuiser les difficultés du problème pour un certain nombre de raisons.

Solutions explicites

Bien que la plupart des vraisemblances soient différentiables (avec l'importante exception de la distribution uniforme), il n'y a aucune raison de penser que les solutions de cette équation puissent s'exprimer par des formes analytiques simples. En fait, le plus souvent, ce n'est pas le cas, et il est alors nécesaire de recourir à des techniques de calcul numérique sur ordinateur pour identifier les maxima de la fonction de vraisemblance (comme c'est typiquement le cas, par exemple, en Régression Logistique).

Identification des maxima

L'équation ci-dessus permet d'identifier les extrema de L(θ), mais ne permet pas de savoir lequels parmi ces extrema sont des maxima (que nous recherchons) ou bien des minima (qui ne nous intéressent pas). De plus, certains points d'inflexion peuvent également satisfaire l'équation. Il faut donc, après que les solutions de l'équation aient été trouvées, sélectionner celles qui correspondent à des maxima.

Les techniques d'optimisation numérique permettent d'obtenir uniquement des maxima.

Rappelons qu'un authentique maximum vérifie également

 

et il faut donc sélectionner parmi les solutions de la première équation celles qui vérifient cette deuxième équation.

    * Il n'y a aucune raison pour que la fonction de vraisemblance ait un unique maximum. Lorsque tous les maxima ont été identifiés, seul le plus grand d'entre-eux à l'intérieur du domaine du paramètre θ doit être retenu. Notons cependant que sous certaines conditions de régularité, la probabilité pour que la fonction de vraisemblance ait un unique maximum tend vers 1 lorsque la taille de l'échantillon tend vers l'infini.

    * L'équation

n'identifie que ceux des extrema qui sont à l'intérieur du domaine de θ. Elle ne permet pas d'identifier les extrema :

        - Qui sont sur la frontière du domaine de θ,

 

 

 

        - Ou la situation dans laquelle la vraisemblance n'a pas de maximum à distance finie (image inférieure de l'illustration ci-dessus).

Erreurs de calcul numérique

Quand le Maximum de Vraisemblance est identifié par une technique de calcul numérique, la question de la validité de solution trouvée est cruciale. La valeur résultant d'un calcul numérique intense peut être très sensible, par exemple, aux erreurs d'arrondi, ce qui peut conduire à des valeurs estimées du paramètre θ  très différentes de celles qui seraient obtenues sans ces erreurs. Ceci est particulièrement vrai quand la valeur vraie du paramètre est dans une région où la fonction de vraisemblance varie peu avec θ, ou quand il n'y a pas de maximum à distance finie.

Instabilités numériques

Dans le même ordre d'idées, il existe des situations où la valeur maximale de la vraisemblance est extrêmement sensible à de petites variations des valeurs des observations. Les observations du monde réel étant toujours entachées d'erreurs, il convient donc de vérifier que la valeur estimée du paramètre change peu lorsque sont introduites de petites variations des valeurs des observations. Si tel n'est pas le cas, l'estimation trouvée doit être considérée avec méfiance.

Vraisemblance multivariée

La maximisation de la vraisemblance peut également être utilisée comme méthode d'estimation lorsque plusieurs paramètres doivent être estimés simultanément. C'est en particulier le cas de l'estimation :

    1) De plusieurs paramètres d'une même distribution univariée (par exemple, estimation simultanée de la moyenne et de la variance d'une distribution normale, voir animation ci-dessous).

    2) D'un paramètre vectoriel d'une distribution multivariée. Par exemple :

        * L'estimation de la moyenne d'une distribution p-variée revient à estimer simultnément p paramètres scalaires (les coordonnées de la moyenne de la distribution).

        * L'estimation d'une matrice de covariance revient à estimer simultanément ses n(n + 1)/2 paramètres (en raison de la symétrie de la matrice).

-----

La situation est alors plus complexe que dans le cas univarié.

Conditions du premier ordre

Comme dans le cas univarié (et avec les mêmes restrictions concernant le domaine du paramètre), les extrema locaux peuvent être identifiés en égalant à 0 les dérivées partielles de la fonction de vraisemblance par rapport aux composantes du paramètre. Par exemple, si le paramètre vectoriel a deux composantes

θ1 et θ2, les extrema de la vraisemblance doivent vérifier :

        et          

Condition du second ordre

La condition du second ordre permettant de certifier qu'un point d'une fonction L de plusieurs variables deux fois continuement différentiable vérifiant les conditions ci-dessus est bien un maximum sont plus compliquées que dans le cas univarié. Il s'agit en fait de deux conditions :

    1) Au moins une des dérivées partielles secondes de L doit être strictement négative :

    pour au moins un i

    2) Le déterminant de la matrice des dérivées partielles secondes de L doit être strictement positif :

 

Cette dernière condition est en général difficile à vérifier, même dans les cas simples.

Animation

Cette animation illustre l'estimation simultanée de la moyenne et de la variance d'une distribution normale par maximisation de la vraisemblance de la distribution normale.

 

 

Le "Livre des Animations" sur votre ordinateur

 

 

 

La valeur de la Vraisemblance est le produit des hauteurs de toutes les connexions vertes allant des points à la gaussienne.

La valeur affichée est le rapport de la vraisemblance courante et de la valeur maximale de la vraisemblance.

 

Pour ajuster la gaussienne candidate à l'échantillon :

    * Translatez la en faisant glisser son sommet avec votre souris.

    * Changez sa largeur (et donc sa hauteur) en translatant ses flancs avec votre souris.

 

Affinez le réglage en cliquant et en maintenant le bouton de votre souris enfoncé :

    * Au-dessus du sommet de la gaussienne pour la rendre plus haute (et donc plus étroite),

    * Dans la surface sous la gaussienne pour la rendre plus basse (et donc plus large),

    * A droite ou à gauche de la gaussienne pour la translater horizontalement.

 

___________________

Cette animation illustre deux faits importants :

    * La moyenne et la variance peuvent être estimés simultanément.

    * Pour chacun de ces deux paramètres, la solution est unique (ce qui n'est pas toujours le cas). C'est la raison pour laquelle vous pouvez alterner :

        - La recherche de la meilleure moyenne pour une variance donnée,

        - La recherche de la meilleure variance pour une moyenne donnée,

et toujours arriver à la même meilleure solution globale.

 

 

Estimation par Maximum de Vraisemblance et estimation par Moindres Carrés

En raison des importantes propriétés des EMV (voir ci-dessous), l'estimation par Maximum de Vraisemblance est la méthode de choix pour estimer les valeurs des paramètres d'un modèle ("ajustement" du modèle).

Pourtant, la plus populaire des techniques de modélisation, à savoir la Régression Linéaire (Simple ou Multiple) n'a pas recours, pour estimer ses paramètres, à la maximisation de la vraisemblance, mais plutôt à l'estimation par Moindres Carrés. Pourquoi ?

En fait, on montre que sous les hypothèses standard de la Régression Linéaire (erreurs normales non corrélées et de variances identiques), Moindres Carrés et Maximum de Vraisemblance conduisent à des résultats identiques. La méthode des Moindres Carrés est alors préférée, essentiellement en raison de son interprétation géométrique en termes de projection orthogonale.

Cette équivalence n'est plus vraie pour des techniques pour lesquelles les hypothèses standard de la Régression Linéaire ne sont certainement pas vérifiées, comme c'est le cas en Régression Logistique, ou en classification par Réseaux de Neurones. L'estimation par Maximum de Vraisemblance reste alors pratiquement la seule méthode disponible d'estimation des paramètres du modèle.

Vraisemblance et tests

Puisque la vraisemblance mesure la plus ou moins bonne adéquation entre une distribution et un échantillon, on peut s'attendre à la voir jouer un rôle important dans les tests portant sur le choix entre des distributions candidates pour rendre compte d'une échantillon.

L'exemple le plus simple d'une telle apparition de la vraisemblance dans le monde des tests est le Théorème de Neyman-Pearson, qui énonce que la Meilleure Région Critique d'un test devant décider entre deux distributions candidates est entièrement déterminée par des considérations portant sur les vraisemblances de ces deux distributions pour l'échantillon disponible.

Propriétés des estimateurs par Maximum de Vraisemblance

Jusqu'ici, nous n'avons fait que nous convaincre que maximiser la vraisemblance est une réponse plausible à la question de l'estimation d'un paramètre d'une distribution ou d'un modèle, mais nous avons anticipé certaines difficultés techniques de cette approche. Pourquoi alors insiter sur l'estimation par Maximum de Vraisemblance ?

Il s'avère que les EMV ont des propriétés intéressantes, dont nous énonçons les plus importantes.

Propriété d'invariance des EMV

Supposons que nous ayons identifié θ*, l'estimateur par Maximum de Vraisemblance du paramètre θ*. Supposons aussi que nous soyons en fait intéressés non pas par θ, mais par une fonction de θ que nous appellerons τ(θ). Comment trouver un estimateur de τ(θ)? Par exemple, la connaissance d'un EMV de

σ²  permet-elle de connaître un estimateur de σ ?

La réponse est "Oui". Nous montrerons que quelle que soit la fonction τ(.), si θ* est l'estimateur par Maximum de Vraisemblance de θ, alors τ(θ*) est l'estimateur par Maximum de Vraisemblance de τ(θ).

Taille d'échantillon fixe

Pour une taille d'échantillon donnée, on montre que :

Propriétés asymptotiques des EMV

La justification la plus forte de l'estimation par Maximum de Vraisemblance vient peut-être des propriétés asymptotiques (càd, pour les grands échantillons) des EMV.

            1) Convergence

Le moins que l'on puisse attendre d'une statistique prétendant à être un estimateur d'un paramètre est d'être convergent. Nous montrerons que, sous certaines conditions de régularité, un estimateur par Maximum de Vraisemblance est convergent : pour des échantillons de plus en plus grand, sa variance tend vers 0 et son espérance tend vers la valeur vraie θ0 du paramètre.

            2) Normalité asymptotique

Nous montrerons que lorsque la taille de l'échantillon tend vers l'infini, la distribution d'un EMV converge vers une distribution normale. Même pour des tailles d'échantillon modérées, la distribution d'un EMV est approximativement normale.

            3) Efficacité asymptotique

Nous montrerons qu'un estimateur par Maximum de Vraisemblance est asymptotiquement efficace : par la propriété de convergence, il est asymptotiquement sans biais et, de plus, le rapport de sa variance à la limite de Cramér-Rao tend vers 1 quand la taille de l'échantillon tend vers l'infini.

-----

Rappelons cependant que, aussi bonnes soient-elles, les propriétés asymptotiques d'un estimateur ne disent rien des propriétés de cet estimateur sur des échantillons finis, et il n'y a donc aucune raison de croire qu'un EMV soit particulièrement bon sur de tels échantillons. En particulier :

    * La convergence implique l'absence asymptotique de biais, mais un EMV n'a aucune raison d'être sans biais, et le plus souvent, un EMV est en fait biaisé.

    * L'efficacité asymptotique implique la plus faible variance possible pour de grands échantillons, mais ne dit rien sur la variance d'un EMV pour des petits échantillons.

Avertissement

L'estimation par Maximum de Vraisemblance est séduisante car elle est conceptuellement simple et reçoit une interprétation intuitive. Cependant, une approche mathématiquement rigoureuse des propriétés des EMV est difficile, et implique toujours des conditions de régularité sur la fonction de vraisemblance qui sont difficiles à établir, difficiles à interpréter et difficiles à vérifier sur des cas réels.

Ces conditions de régularité ne peuvent être ignorées. L'histoire de l'estimation par Maximum de Vraisemblance est parsemée d'un grand nombre d'exemples de comportements absolument pathologiques d'EMV, même pour leurs propriétés les plus élémentaires, comme par exemple la convergence.

L'estimation par Maximum de Vraisemblance ne doit donc pas être considérée comme une panacée qui rendrait caduques les autres méthodes d'estimation.

 

__________________________________________________________________

 

 

Tutoriel 1

 

Dans ce Tutoriel, nous montrons que, sous certaines conditions de régularité, un estimateur par Maximum de Vraisemblance (EMV) est convergent. Plus précisément, si nous notons θ0 la valeur (inconnue) du paramètre θ, nous montrons que aussi petit que soit le nombre positif δ, la probabilité pour que la fonction de vraisemblance ait un maximum dans l'intervalle ]θ0 - δ, θ0 + δ[ tend vers 1 quand la taille de l'échantillon tend vers l'infini.

Ce résultat découlera du raisonnement suivant : la fonction de vraisemblance a certainement un maximum dans cet intervalle si sa dérivée est positive en

θ0 - δ et négative en θ0 + δ (en supposant cette dérivée continue). Nous montrerons qu'il en est bien ainsi avec une probabilité supérieure à 1 - ε, aussi petit que soit ε, lorsque la taille de l'échantillon tend vers l'infini.

La démonstration fera appel à des résultats obtenus lors de l'étude de l'inégalité de Cramér-Rao.

 

 

 

UN ESTIMATEUR PAR MAXIMUM DE VRAISEMBLANCE

EST CONVERGENT

Développement de Taylor de la fonction score

Limites des coefficients du développement de Taylor

Loi Faible des Grands Nombres

Limite du terme d'ordre 0

Limite du terme d'ordre 1

Limite du reste

Première approche déterministe

Solution probabiliste

Conclusion

TUTORIEL

 __________________________________________________________

 

 

Tutoriel 2

 

Dans ce Tutoriel, nous montrons qu'un Estimateur par Maximum de Vraisemblance est asymptotiquement normal : quand la taille de l'échantillon tend vers l'infini, la distribution de l'estimateur normalisé se rapproche de plus en plus d'une distribution normale dont nous calculerons la variance (la moyenne étant bien sûr la valeur vraie du paramètre puisque nous avons montré qu'un EMV est convergent).

La démonstration utilise le même développement en série de Taylor de la fonction score que nous avons utilisé dans le Tutoriel précédent. De ce développement, nous déduirons une expression de l'EMV dont calculerons la distribution limite en ayant recours successivement à plusieurs versions du Théorème de Slutsky ainsi qu'au Théorème Central Limite dont l'intervention dans une question de normalité asymptotique était prévisible.

-----

Nous concluons en abordant la question de l'efficacité d'un EMV.

    * Un EMV étant convergent, il est asymptotiquement sans biais,

    * Et nous montrerons que la rapport de sa variance et de la limite de Cramér-Rao tend vers 1 quand la taille de l'échantillon tend vers l'infini.

Un Estimateur par Maximum de Vraisemblance est donc asymptotiquement efficace.

Ce résultat sera une simple conséquence de la démonstration de la normalité asymptotique.

 

 

 

 

UN ESTIMATEUR PAR MAXIMUM DE VRAISEMBLANCE

EST ASYMPTOTIQUEMENT NORMAL ET EFFICACE

Plan de la démonstration

Distribution limite du dénominateur

Premier terme

Second terme

Convergence du dénominateur

Distribution limite du numérateur

Espérance

Variance

Théorème Central Limite

Slutsky et normalité asymptotique

Efficacité asymptotique

TUTORIEL

 __________________________________________

 

 

Tutoriel 3

 

Dans ce Tutoriel, nous démontrons la "propriété d'invariance" des estimateurs par Maximum de Vraisemblance. Cette propriété énonce que si θ* est l'estimateur par Maximum de Vraisemblance de θ, alors, pour toute fonction τ(.), l'EMV de τ(θ) est τ(θ*).

Le cas où la fonction τ(.) est bijective est assez simple. Le cas où cette fonction n'est pas bijective est un peu plus délicat.

Il apparaîtra que ce résultat n'est en fait pas vraiment de nature statistique, mais est plutôt un résultat mathématique général portant sur la valeur maximale d'une fonction.

 

 

 

PROPRIETE D'INVARIANCE DES EMV

La fonction est bijective

La fonction n'est pas bijective

Vraisemblance induite

Valeur maximale de la vraisemblance induite

Maximisation de la vraisemblance induite

Résultat mathématique général

TUTORIEL

 

______________________________________________________

 

Voir aussi:

Estimation

Régression Logistique

Théorème de Neyman-Pearson

Inégalité de Cramér-Rao

Téléchargez ce Glossaire